大型C++仓库 #185
-
|
请问OCR对于大型C++代码仓库,或者大型文件的review效率怎么样呢? |
Beta Was this translation helpful? Give feedback.
Replies: 2 comments 11 replies
-
|
效率可以参考 Benchmark :https://alibaba.github.io/open-code-review/ 我们基于真实场景的 CodeReview 基准测试进行了客观评估,该评测集从 50 个热门开源仓库中精选 200 个真实的 PullRequest,覆盖 10 种编程语言、多种问题类型与不同的变更规模,并由 80+ 位资深工程师交叉标注完成。评测对比了三类工具:Open Code Review(v1.3.1)、Claude Code(v2.1.169,/code-review)和 Codex(v0.140.0,/review),涵盖 Claude-4.6-Opus、Claude-4.8-Opus、GPT-5.5、Qwen3.7-Max、Deepseek-V4-Pro、GLM-5.1 共六款主流模型。 结论一:不同工具在准确率与召回率上各有所长Open Code Review 的核心优势在于准确率:各模型的准确率在 25%–38% 之间,远高于 Claude Code 的 7%–16%。以 Claude-4.6-Opus 为例,OCR 产出 889 条评论、命中 301 个真实问题(准确率 33.90%),而 Claude Code 产出 5980 条评论、命中 435 个真实问题(准确率 7.23%)。更高的准确率意味着更低的噪声,工程师在处理评审结果时效率更高。 结论二:资源开销与适用场景存在差异三类工具在资源消耗上呈现出明显的层次差异。Open Code Review 的平均 Token 消耗为 352K–743K,耗时 1–6 分钟,是三者中效率最高的选择。Claude Code 的 Token 消耗在 2,062K–5,664K 之间,耗时 5–14 分钟,资源开销显著更高,但更高的召回率使其在深度审查场景中仍具价值。Codex 的 Token 消耗(525K)和耗时(约 3 分钟)与 OCR 处于同一量级,且保持了 27.82% 的准确率,但 4.92% 的召回率使其仅能覆盖少量问题,更适合作为轻量级的快速扫描工具。 结论三:新一代模型并非在所有维度上均优于上一代一个值得关注的现象是,Claude-4.8-Opus 在两个工具上均表现出"更精确但更保守"的特征:它的准确率是所有组合中最高的(OCR 上 37.80%、CC 上 15.93%),但召回率明显低于 Claude-4.6-Opus(OCR 上 11.70% vs 20.00%、CC 上 12.70% vs 28.90%)。这说明模型的代际升级并不一定带来代码评审效果的全面提升 —— 更强的模型能力可能倾向于更严格的判断标准,从而在提升精度的同时牺牲了覆盖面。
|
Beta Was this translation helpful? Give feedback.
-
|
@ScarletCarpet 感谢关注!1.7 集成 CodeGraph MCP 后我们做了一组对照评测。同一套 benchmark(194 个 PR 样本、1505 条 ground truth 评论),底座同为 Claude-4.6-Opus,唯一变量是是否接入 CodeGraph MCP。 质量指标(语义维度)
接入 CodeGraph 后 F1 / 精确率 / 召回率全面提升,命中的有效评论从 285 → 316 条。 成本与效率(194 样本平均)
工具调用(平均次数)接入 CodeGraph 后,模型每轮约多调用 1 次 小结以约 +12.7% 的 token 开销(耗时几乎不变)换取 F1 +2.2pp、召回 +2.1pp 的稳定提升,且低质量(空行号)评论占比从 1.27% 降到 0.72%。对大仓 / 跨文件依赖场景,CodeGraph 带来的上下文补全收益会更明显,后续我们会持续优化。 |
Beta Was this translation helpful? Give feedback.

效率可以参考 Benchmark :https://alibaba.github.io/open-code-review/
目前上下文主要是靠 grep,我们正在评测 CodeGragh 等 ast 工具的效果,考虑集成进来。
我们基于真实场景的 CodeReview 基准测试进行了客观评估,该评测集从 50 个热门开源仓库中精选 200 个真实的 PullRequest,覆盖 10 种编程语言、多种问题类型与不同的变更规模,并由 80+ 位资深工程师交叉标注完成。评测对比了三类工具:Open Code Review(v1.3.1)、Claude Code(v2.1.169,/code-review)和 Codex(v0.140.0,/review),涵盖 Claude-4.6-Opus、Claude-4.8-Opus、GPT-5.5、Qwen3.7-Max、Deepseek-V4-Pro、GLM-5.1 共六款主流模型。
结论一:不同工具在准确率与召回率上各有所长
Open Code Review 的核心优势在于准确率:各模型的准确率在 25%–38% 之间,远高于 Claude Code 的 7%–16%。以 Claude-4.6-Opus 为例,OCR 产出 889 条评论、命中 301 个真实问题(准确率 33.90%),而 Claude Code 产出 5980 条评论、命中 435 个真实问题(准确率 7.23%)。更高的准确率意味着更低的噪声,工程师在处理评审结果时效率更高。
然而,Claude Code 的核心优势在于召回率:CC + Claude-4.6…