<p><span>编译 | Tina </span></p><p style="text-align: justify;"><span>3 月 9 日,Anthropic 推出了一款新的代码审查产品 Code Review,主打在人工介入之前,先用 AI 自动检查 Pull Request 中的问题。 这项服务面向团队和企业用户,瞄准的是软件开发生命周期(SDLC)中一个越来越突出的新环节:代码写得越来越快,但代码审查正逐渐成为瓶颈。</span></p><p style="text-align: justify;"><span>和传统 IDE 内置的审查插件不同,Code Review 主要运行在 GitHub 和 CI 流程中,而不是开发者本地的 IDE 里。也就是说,它更像是被放在代码提交之后、人工审查之前的一道自动检查关卡。乍一看,这确实像是个很有吸引力的新功能——毕竟在 AI 持续抬高代码产能之后,代码审查已经成了越来越多团队不得不面对的新问题。</span></p><p><span style="font-size: 20px;"><span>1</span></span><span>更贵,也更慢:Claude 开始收“审代码税” </span></p><p style="text-align: justify;"><span>实际上,Anthropic 的 Claude 模型本身已经具备按需进行代码审查的能力——甚至可以通过让 Claude 审查自己写的代码,来评估 AI 生成代码的质量。此外,公司还提供了 Claude Code GitHub Action,可以在 CI/CD 流水线中自动触发代码审查。而新的 Code Review 服务,则把这种能力做得更深入——当然,成本也更高。</span></p><blockquote> <p style="text-align: left;"><span>“代码审查按 token 使用量计费,通常平均每次在 <span>15 到 25 美元之间</span>,具体费用取决于 Pull Request 的规模和复杂度。” </span></p></blockquote><span></span><p style="text-align: justify;"><span>注意,Claude Code 创始人 Boris 强调了这是</span><strong><span>每个 Pull Request 的价格</span></strong><span>。</span></p><p><img src="t3/aQzRlO0/sBY0zrGUHDsmJ5ULT+qz1crB9Zo+mUNNFwdiKP9s+lhRO7/XKMA4A+WOQVS5Jz///pFL5eQPLdPsGR2Vfx3j5MZ72260ZHaw=" data-src="t3/aQzRlO0/sBY0zrGUHDsmJ5ULT+qz1crB9Zo+mUNNFwdiKP9s+lhRO7/XKMA4A+WOQVS5Jz///pFL5eQPLdPsGR2Vfx3j5MZ72260ZHaw=" /></p><p style="text-align: justify;"><span>从开发者实际测试来看,这个价格并不只是纸面数字。开发者 Sinai Gross 表示,他测试了 Claude Code 的代码审查功能,一次共审查了 3 个 Pull Request:其中两个 PR 各修改了约 750 行代码,另一个修改了约 100 行,系统给出的平均费用是 18.39 美元。</span></p><p><img src="BFGeRMHWSh+ecBDsaViLjcmJ5ULT+qz1crB9Zo+mUNOZn+hVWxiGdyYWU1NqCEEFRcna8/NvXg2kdZvFAwoA3/wAXORhhW/cujxWOdXv0JE=" data-src="BFGeRMHWSh+ecBDsaViLjcmJ5ULT+qz1crB9Zo+mUNOZn+hVWxiGdyYWU1NqCEEFRcna8/NvXg2kdZvFAwoA3/wAXORhhW/cujxWOdXv0JE=" /></p><p style="text-align: justify;"><span>问题在于,这样的价格一旦放到真实的工程规模里,成本会迅速放大。网友 DanT(@uyintans) 就直接指出,如果一家中大型公司每天都会产生大量 Pull Request,而每个 PR 都要花 15 到 25 美元来审查,那么规模化之后,这笔费用很容易滚到每年数百万美元。</span></p><p style="text-align: justify;"><span>换句话说,假设一个团队一天产生 100 个 PR——这在大型工程团队里并不算夸张。按“每位工程师每天提交 1 到 2 个 PR”估算,一个 50 人的工程团队,一天就可能接近这个数量。若按平均 20 美元一次审查计算,一天就是 2000 美元,一年大约就是 70 多万美元。如果是更大的工程组织,PR 数量再翻几倍,整体成本很快就会迈入百万美元级别。</span></p><p><img src="UobGwTkesb1n2VhXTZAdSMmJ5ULT+qz1crB9Zo+mUNOYQ6M4XMQmFx/PU+fkAttJ2jU66LZaz95FFw/HTNNiBNvCyY+NaSTaIyqMIGNrLFU=" data-src="UobGwTkesb1n2VhXTZAdSMmJ5ULT+qz1crB9Zo+mUNOYQ6M4XMQmFx/PU+fkAttJ2jU66LZaz95FFw/HTNNiBNvCyY+NaSTaIyqMIGNrLFU=" /></p><p style="text-align: justify;"><span>对比之下,做 AI 代码审查的 CodeRabbit,月费也不过 24 美元。也就是说,Claude 这套多跑两次 PR,花的钱可能就已经超过别人一个月。</span></p><p><img src="7syuM7T2zZ+KDa0RBbYG3cmJ5ULT+qz1crB9Zo+mUNMhjRVF+u+1M0FKOaWOwF6pnN5BvZsYDGUsRY+qeGnp4ZDpi2QevwyVPFWxKWJwJbw=" data-src="7syuM7T2zZ+KDa0RBbYG3cmJ5ULT+qz1crB9Zo+mUNMhjRVF+u+1M0FKOaWOwF6pnN5BvZsYDGUsRY+qeGnp4ZDpi2QevwyVPFWxKWJwJbw=" /></p><blockquote> <p style="text-align: left;"><span>Q:每次 PR 审查要 <span>15–20 美元</span>,对于一个个人项目来说实在太贵了。有没有更便宜甚至免费的替代方案,同时还能在测试阶段防止新的功能把生产环境搞崩? </span></p> <p style="text-align: left;"><span>A:CodeRabbit 对开源项目是免费的。</span></p></blockquote><span></span><p style="text-align: justify;"><span>而且,Code Review 的速度也不算快。Anthropic 表示,具体耗时取决于 Pull Request 的规模,但</span><strong><span>平均一次审查需要约 20 分钟</span></strong><span>。</span></p><p style="text-align: justify;"><span>原因在于,这些 Agent 并不只分析 PR 的改动部分,而是会把</span><strong><span>整个代码库作为上下文</span></strong><span>来分析。</span></p><p style="text-align: justify;"><span>Anthropic Claude Code 产品负责人 Cat Wu 认为,这样可以避免某个文件的改动在其他文件中引入新的 bug——例如不同模块之间存在一些意想不到的交互关系。</span></p><p style="text-align: justify;"><span>她解释说,他们希望这个系统“非常智能、非常彻底,而目前实现这一点的方式,就是让它运行得更久一些。”</span></p><p style="text-align: justify;"><span>“不过换来的结果是更可靠的输出。而且每个 Agent 不只是查看你修改的代码,它们可以灵活地遍历整个代码库。”</span></p><p style="text-align: justify;"><span>目前,这个工具只会在 Pull Request 创建时自动运行。对于简单的 PR,系统只会进行一次“轻量级扫描”;而对于复杂的 PR,则会调用更多 Agent,进行更深入的分析。</span></p><p><span style="font-size: 20px;"><span>2</span></span><span>并行 Agent,效果还不差 </span></p><p style="text-align: justify;"><span>在实际运行中,Code Review 会派出一组并行工作的 Agent,每个 Agent 负责寻找不同类型的错误。任务完成后,它们会在 Pull Request 中留下评论,总结发现的问题,并在必要时给出修复建议。</span></p><p style="text-align: justify;"><span>不过,这些 Agent 不会自动批准 Pull Request——最终是否通过,仍然由人类工程师决定。</span></p><p style="text-align: justify;"><span>这些 Agent 的重点是发现逻辑错误(logic errors),而不是代码风格问题。这是一个刻意的设计选择。 Cat Wu 表示,这样做可以减少误报。</span></p><p style="text-align: justify;"><span>她解释说:“很多时候人类在做代码审查时,不仅会发现逻辑错误,还会提出大量代码风格上的问题。我们发现,在 AI 生成的代码审查中,开发者最关心的其实是逻辑错误,所以这也是系统的核心关注点。”</span></p><p style="text-align: justify;"><span>“大家对误报非常敏感。如果我们只专注于逻辑错误和真正的 bug,那么误报率就会很低。因为一旦发现 bug,几乎肯定就应该修复。”</span></p><p style="text-align: justify;"><span>Anthropic 表示,他们已经在内部使用 Code Review 数月,并取得了相当不错的成果。公司称:</span></p><ul> <li><p><span>对于超过 1000 行变更的大型 Pull Request,84% 的自动审查会发现值得关注的问题,平均 7.5 个问题。</span></p></li> <li><p><span>对于少于 50 行的小型 Pull Request,31% 会收到评论,平均 0.5 个问题。</span></p></li></ul><p style="text-align: justify;"><span>而在人类开发者的反馈中,被 Claude 标记的问题里,不到 1% 会被工程师否决。</span></p><p style="text-align: justify;"><span>一些参与测试的客户也获得了实际收益。例如,当 TrueNAS 在其开源中间件中进行 ZFS 加密模块重构时,这个 AI 审查服务在相邻代码中发现了一个 bug:一个类型不匹配的问题,可能在同步操作时导致加密密钥缓存被清空。</span></p><p style="text-align: justify;"><span>Anthropic 还举了一个内部案例:Code Review 曾发现一处看似无害的一行代码修改,但如果合入生产环境,实际上会破坏服务的认证机制。该公司表示:“这个问题在代码合并之前就被修复了。事后这位工程师也表示,如果没有 AI 审查,他很可能自己发现不了。”</span></p><p><span style="font-size: 20px;"><span>3</span></span><span>既当运动员,又当裁判 </span></p><p style="text-align: justify;"><span>Anthropic 还强调说,过去一年,自家工程师的代码产量增长了 200%,代码审查反而成了新的瓶颈。公司还表示,很多客户也在遇到同样的问题:开发者已经忙不过来,很多 PR 最后只能草草看一眼,很难做深入审查。</span></p><p style="text-align: justify;"><span>这其实也是行业普遍现象:AI 让代码写得越来越快,但审代码的人并没有变多,PR 越来越多,审查自然就跟不上了。</span></p><p style="text-align: justify;"><span>不过网友的质疑也很直接:既然 Claude 能审代码,为什么不一开始就把代码写对?有人吐槽,现在看起来像是 Claude 先写代码,再让 Claude 自己审代码,最后还抓出一堆 Claude 自己写出来的 bug。还有人说得更犀利:这会不会违背了“裁判不能同时当刽子手(既当运动员,又当裁判)”的基本原则?万一 Claude Code 先制造出问题,再靠修复这些问题继续收费呢?</span></p><p><img src="LnKryVIWBbAvgVZoNLlGM8mJ5ULT+qz1crB9Zo+mUNNfK55eev2xFrmSBfEk1zf5K/VVhI05G0c1tjO+i//+EgjqgQyd3kCf7uoOX6Asdug=" data-src="LnKryVIWBbAvgVZoNLlGM8mJ5ULT+qz1crB9Zo+mUNNfK55eev2xFrmSBfEk1zf5K/VVhI05G0c1tjO+i//+EgjqgQyd3kCf7uoOX6Asdug=" /></p><p><img src="Ia4yZ4hqAGnFYOx5SsJGIMmJ5ULT+qz1crB9Zo+mUNN5Ylb5iRpYZZeXS4yMi8FmiMUde5vRIueet+Usi2obHoo8naWfqBqXvLLmmo0GkjY=" data-src="Ia4yZ4hqAGnFYOx5SsJGIMmJ5ULT+qz1crB9Zo+mUNN5Ylb5iRpYZZeXS4yMi8FmiMUde5vRIueet+Usi2obHoo8naWfqBqXvLLmmo0GkjY=" /></p><p style="text-align: justify;"><span>说白了,这看上去更像是在给模型自己的不稳定再加一层补丁——而且这层补丁,还要再收一笔钱。</span></p><p style="text-align: justify;"><span><span style="font-size: 16px;">参考链接:</span></span></p><p style="text-align: justify;"><span><span style="font-size: 16px;">https://claude.com/blog/code-review</span></span></p><p style="text-align: justify;"><span><span style="font-size: 16px;">https://www.theregister.com/2026/03/09/anthropic_debuts_code_review/</span></span></p><p style="text-align: justify;"><span style="font-size: 16px;"><span>声明:本文为 InfoQ 翻译整理,不代表平台观点,未经许可禁止转载。</span></span></p><p><span></span><span>会议推荐</span></p><p style="text-align: justify;"><span>OpenClaw 出圈,“养虾”潮狂热,开年 Agentic AI 这把火烧得不可谓不旺。在这一热潮下,自托管 Agent 形态迅速普及:多入口对话、持久记忆、Skills 工具链带来强大生产力。但这背后也暴露了工程化落地的真实难题——权限边界与隔离运行、Skills 供应链安全、可观测与可追溯、记忆分层与跨场景污染、以及如何把 Agent 纳入团队研发 / 运维流程并形成稳定收益。</span></p><p style="text-align: justify;"><span>针对这一系列挑战,在 4 月 16-18 日即将举办的 QCon 北京站上,我们特别策划了「OpenClaw 生态实践」专题,将聚焦一线实践与踩坑复盘,分享企业如何构建私有 Skills、制定安全护栏、搭建审计与回放机制、建立质量 / 效率指标体系,最终把自托管 Agent 从可用的 Demo 升级为可靠的生产系统。</span></p><p><img src="BFGeRMHWSh+ecBDsaViLjcmJ5ULT+qz1crB9Zo+mUNOM/QaichA0ztf4S52/OT+Hp93XTuQtkZmQjSyK+g4fco1tYeFQ5BK1ua0Mty5ql94=" data-src="BFGeRMHWSh+ecBDsaViLjcmJ5ULT+qz1crB9Zo+mUNOM/QaichA0ztf4S52/OT+Hp93XTuQtkZmQjSyK+g4fco1tYeFQ5BK1ua0Mty5ql94=" /></p>
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/215665.html