大型C++仓库 #185

ChrisYANG1111 · 2026-06-22T07:59:06Z

ChrisYANG1111
Jun 22, 2026

请问OCR对于大型C++代码仓库，或者大型文件的review效率怎么样呢？
或者咱们在review时，相关联的上下文是怎么获取？纯grep吗？

Jun 22, 2026

效率可以参考 Benchmark ：https://alibaba.github.io/open-code-review/
目前上下文主要是靠 grep，我们正在评测 CodeGragh 等 ast 工具的效果，考虑集成进来。

我们基于真实场景的 CodeReview 基准测试进行了客观评估，该评测集从 50 个热门开源仓库中精选 200 个真实的 PullRequest，覆盖 10 种编程语言、多种问题类型与不同的变更规模，并由 80+ 位资深工程师交叉标注完成。评测对比了三类工具：Open Code Review（v1.3.1）、Claude Code（v2.1.169，/code-review）和 Codex（v0.140.0，/review），涵盖 Claude-4.6-Opus、Claude-4.8-Opus、GPT-5.5、Qwen3.7-Max、Deepseek-V4-Pro、GLM-5.1 共六款主流模型。

结论一：不同工具在准确率与召回率上各有所长

Open Code Review 的核心优势在于准确率：各模型的准确率在 25%–38% 之间，远高于 Claude Code 的 7%–16%。以 Claude-4.6-Opus 为例，OCR 产出 889 条评论、命中 301 个真实问题（准确率 33.90%），而 Claude Code 产出 5980 条评论、命中 435 个真实问题（准确率 7.23%）。更高的准确率意味着更低的噪声，工程师在处理评审结果时效率更高。
然而，Claude Code 的核心优势在于召回率：CC + Claude-4.6…

View full answer

lizhengfeng101 · 2026-06-22T08:28:50Z

lizhengfeng101
Jun 22, 2026
Maintainer

效率可以参考 Benchmark ：https://alibaba.github.io/open-code-review/
目前上下文主要是靠 grep，我们正在评测 CodeGragh 等 ast 工具的效果，考虑集成进来。

我们基于真实场景的 CodeReview 基准测试进行了客观评估，该评测集从 50 个热门开源仓库中精选 200 个真实的 PullRequest，覆盖 10 种编程语言、多种问题类型与不同的变更规模，并由 80+ 位资深工程师交叉标注完成。评测对比了三类工具：Open Code Review（v1.3.1）、Claude Code（v2.1.169，/code-review）和 Codex（v0.140.0，/review），涵盖 Claude-4.6-Opus、Claude-4.8-Opus、GPT-5.5、Qwen3.7-Max、Deepseek-V4-Pro、GLM-5.1 共六款主流模型。

结论一：不同工具在准确率与召回率上各有所长

Open Code Review 的核心优势在于准确率：各模型的准确率在 25%–38% 之间，远高于 Claude Code 的 7%–16%。以 Claude-4.6-Opus 为例，OCR 产出 889 条评论、命中 301 个真实问题（准确率 33.90%），而 Claude Code 产出 5980 条评论、命中 435 个真实问题（准确率 7.23%）。更高的准确率意味着更低的噪声，工程师在处理评审结果时效率更高。
然而，Claude Code 的核心优势在于召回率：CC + Claude-4.6-Opus 以 28.90% 的召回率位居所有组合之首，实际命中了 435 个真实问题——比 OCR 最优组合多发现了 134 个（增幅约 45%）。不仅如此，CC + Qwen3.7-Max（23.37%）和 CC + GLM-5.1（20.80%）的召回率同样超过了 OCR 的多数组合。对于安全审计等"宁可多查、不可遗漏"的场景，更高的召回率有着不可替代的价值。
综合来看，Open Code Review 凭借 F1 指标领先（最优 25.10% vs Claude Code 最优 14.13%），在准确率和召回率之间取得了更均衡的表现；而 Claude Code 则在最大化问题覆盖方面更具优势，适合对遗漏风险容忍度低的场景。

结论二：资源开销与适用场景存在差异

三类工具在资源消耗上呈现出明显的层次差异。Open Code Review 的平均 Token 消耗为 352K–743K，耗时 1–6 分钟，是三者中效率最高的选择。Claude Code 的 Token 消耗在 2,062K–5,664K 之间，耗时 5–14 分钟，资源开销显著更高，但更高的召回率使其在深度审查场景中仍具价值。Codex 的 Token 消耗（525K）和耗时（约 3 分钟）与 OCR 处于同一量级，且保持了 27.82% 的准确率，但 4.92% 的召回率使其仅能覆盖少量问题，更适合作为轻量级的快速扫描工具。

结论三：新一代模型并非在所有维度上均优于上一代

一个值得关注的现象是，Claude-4.8-Opus 在两个工具上均表现出"更精确但更保守"的特征：它的准确率是所有组合中最高的（OCR 上 37.80%、CC 上 15.93%），但召回率明显低于 Claude-4.6-Opus（OCR 上 11.70% vs 20.00%、CC 上 12.70% vs 28.90%）。这说明模型的代际升级并不一定带来代码评审效果的全面提升 —— 更强的模型能力可能倾向于更严格的判断标准，从而在提升精度的同时牺牲了覆盖面。

4 replies

ChrisYANG1111 Jun 22, 2026
Author

感谢回复！请问code Graph的集成进度怎么样呢？如果能短时间内出来，我这边项目就基于OCR去做，不行的话我还得另想办法

MuoDoo Jun 22, 2026
Collaborator

感谢回复！请问code Graph的集成进度怎么样呢？如果能短时间内出来，我这边项目就基于OCR去做，不行的话我还得另想办法

我们近期会支持并评测code graph的集成

lizhengfeng101 Jun 22, 2026
Maintainer

@ChrisYANG1111 快的话，我预计月底就能上线。

ScarletCarpet Jul 2, 2026

@ChrisYANG1111 快的话，我预计月底就能上线。

我看1.7集成了codegraph的MCP，有没有相关测评数据可以分享下。

lizhengfeng101 · 2026-07-02T11:55:46Z

lizhengfeng101
Jul 2, 2026
Maintainer

@ScarletCarpet 感谢关注！1.7 集成 CodeGraph MCP 后我们做了一组对照评测。同一套 benchmark（194 个 PR 样本、1505 条 ground truth 评论），底座同为 Claude-4.6-Opus，唯一变量是是否接入 CodeGraph MCP。

质量指标（语义维度）

指标	仅 MCP（基线）	MCP + CodeGraph	变化
Sem. F1	23.4%	25.6%	+2.2pp（相对 +9.4%）
Sem. Precision	30.6% (285/931)	32.8% (316/964)	+2.2pp
Sem. Recall	18.9% (285/1505)	21.0% (316/1505)	+2.1pp

接入 CodeGraph 后 F1 / 精确率 / 召回率全面提升，命中的有效评论从 285 → 316 条。

成本与效率（194 样本平均）

指标	仅 MCP	MCP + CodeGraph	变化
平均 token	409,599	461,762	+12.7%
平均耗时	1m28s	1m27s	基本持平
平均评论数	943	970	+2.9%
空行号评论占比	1.27%	0.72%	明显下降

工具调用（平均次数）

接入 CodeGraph 后，模型每轮约多调用 1 次 codegraph_explore，同时 file_read（15→14）、code_search（11→10）略有下降——即用图检索部分替代了朴素的读文件 / grep。

小结

以约 +12.7% 的 token 开销（耗时几乎不变）换取 F1 +2.2pp、召回 +2.1pp 的稳定提升，且低质量（空行号）评论占比从 1.27% 降到 0.72%。对大仓 / 跨文件依赖场景，CodeGraph 带来的上下文补全收益会更明显，后续我们会持续优化。

7 replies

lizhengfeng101 Jul 3, 2026
Maintainer

目前没有太多精力可以分享这块儿，后续有时间我们可以做一些博客进行分享，敬请期待~

ScarletCarpet Jul 3, 2026

目前没有太多精力可以分享这块儿，后续有时间我们可以做一些博客进行分享，敬请期待~

行。我先尝试自己构造一些sample吧。另外想问下如果sample没法共享，数据统计的方法或工具能共享下么？或者说把benchmark的工具集成到OCR里，但是sample由用户自己构建。

lizhengfeng101 Jul 3, 2026
Maintainer

我们后续会分一些精力投入到 AACR-Bench 上面，完善包括 OCR、Claude Code、Codex 等常见工具的集成链路。

lizhengfeng101 Jul 3, 2026
Maintainer

另外，你的 PR 没有签署 CLA，合并依赖这个行为。

ScarletCarpet Jul 3, 2026

另外，你的 PR 没有签署 CLA，合并依赖这个行为。

好的，第一次用github提PR。见谅。我看下怎么弄。。

Uh oh!

大型C++仓库 #185

Uh oh!

ChrisYANG1111 Jun 22, 2026

结论一：不同工具在准确率与召回率上各有所长

Replies: 2 comments · 11 replies

Uh oh!

lizhengfeng101 Jun 22, 2026 Maintainer

结论一：不同工具在准确率与召回率上各有所长

结论二：资源开销与适用场景存在差异

结论三：新一代模型并非在所有维度上均优于上一代

Uh oh!

ChrisYANG1111 Jun 22, 2026 Author

Uh oh!

MuoDoo Jun 22, 2026 Collaborator

Uh oh!

lizhengfeng101 Jun 22, 2026 Maintainer

Uh oh!

ScarletCarpet Jul 2, 2026

Uh oh!

lizhengfeng101 Jul 2, 2026 Maintainer

质量指标（语义维度）

成本与效率（194 样本平均）

工具调用（平均次数）

小结

Uh oh!

lizhengfeng101 Jul 3, 2026 Maintainer

Uh oh!

ScarletCarpet Jul 3, 2026

Uh oh!

lizhengfeng101 Jul 3, 2026 Maintainer

Uh oh!

lizhengfeng101 Jul 3, 2026 Maintainer

Uh oh!

ScarletCarpet Jul 3, 2026

ChrisYANG1111
Jun 22, 2026

Replies: 2 comments 11 replies

lizhengfeng101
Jun 22, 2026
Maintainer

ChrisYANG1111 Jun 22, 2026
Author

MuoDoo Jun 22, 2026
Collaborator

lizhengfeng101 Jun 22, 2026
Maintainer

lizhengfeng101
Jul 2, 2026
Maintainer

lizhengfeng101 Jul 3, 2026
Maintainer

lizhengfeng101 Jul 3, 2026
Maintainer

lizhengfeng101 Jul 3, 2026
Maintainer