AI编码代理需要基于证据的审查,而不仅仅是更便宜的路径选择
本文分析了AI辅助编码中审查环节的成本,指出模型调用费用仅占总成本的一小部分,真正的瓶颈在于人工审查和返工。通过对比路由、检索增强生成、多模型协商和自动化测试等方法,本文提出了一个验证层应当连接主张与证据、缩小审查范围,并探讨了额外验证的经济效益。
在AI辅助的工作流程中,代码生成已不再是唯一的瓶颈。智能体系统能够读取仓库、编辑文件、运行命令、编写测试,并通过多步骤或多模型进行规划、调用工具、检索上下文并组装答案。然而,真正被检查的内容是什么?模型哪些是假设的?在合并之前,结果在多大程度上是可靠的?
生成合理代码的成本已经降低,但其基础的检查成本并未同步跟进。仅根据代币价格、生成速度或智能体数量来比较AI工具,忽略了关键的工程决策:从请求到有理由的合并决策的路径。
本文提出三个问题:一旦考虑调用、审查、返工和逃离错误风险,AI是否降低了总决策成本?路由、检索、多模型协商和自动化检查分别针对成本的哪个部分?验证层应该产生什么,其价值如何能被证伪而非仅仅声称?
1. 验证税
生产力证据令人困惑。METR进行了一项随机对照试验,16名有经验的开源开发人员在2025年初的工具下执行246个真实任务。结果发现,使用AI时任务平均耗时增加19%。2026年2月,METR报告称更新的数据可能显示更大的提升,但明确表示信号不可靠。对于返回的开发人员,完成时间变化估计为-18%,置信区间为[-38%, +9%];对于新招募的开发人员,为-4%,置信区间为[-15%, +9%]。两个区间都包含零效应。诚实的结论是,既不是“AI总是加速开发人员”,也不是“AI总是减慢开发人员”。生产力取决于工具成熟度、仓库熟悉度、任务形状、上下文获取以及检查结果的成本。
2025年DORA报告提供了不同的观察视角,近5000名技术专业人员中,90%在工作中使用AI,超过80%感知到生产力提升,但30%对AI生成的代码信任度低或没有信任。AI采用与交付吞吐量和产品性能正相关,与交付稳定性负相关。这不是因果估计,但与系统假设一致:如果测试和交付控制不能随变更量扩展,更快的本地生成可能增加下游负载。
Google七项研究的综合发现,39%的外部开发人员对GenAI输出质量信任度很低或完全不信任。审查和测试的严谨性感知,以及开发人员对AI使用位置的控制,与信任正相关。
审查本身不仅仅是缺陷发现。在Bacchelli和Bird对200个微软审查线程和570条评论的研究中,代码改进占评论的29%,缺陷占14%。作者将理解上下文和变更视为审查的核心,并将知识转移作为独立结果记录。
一个说明性的审查负载模型:假设团队每周处理20个PR,平均审查30分钟,则每周10个审查员小时。如果AI将吞吐量翻倍而每个PR的审查成本不变,则变为40个PR × 30分钟 = 20小时。如果AI辅助的PR变得更宽,审查时间增加25%,则40个PR × 37.5分钟 = 25小时。这显示机制:更快的生成可能将工作从编写转移到检查,而不是消除工作。
2. 工程决策的总成本
代币账单不是总成本。定义一次决策的预期成本:C_total = C_model + C_tools + R_hour × (T_review + T_rework) + P_escape × L_escape。其中,C_model是模型调用,C_tools是CI、沙箱、检索等计算,R_hour是每工程小时的内部成本,T_review是达到应用/审查/拒绝决策的时间,T_rework是合并前修复问题的预期时间,P_escape是实质性错误通过审查的概率,L_escape是此类逃脱的预期损失。
以一个说明性基线为例:C_model = $5,审查60分钟,R_hour = $80,暂时忽略工具、返工和风险:C_total = $5 + $80 = $85。
纯模型账单优化的上限:如果模型调用占总成本的比例为f = C_model / C_total,那么在保持工作量、质量、审查、返工和风险不变的情况下,仅优化模型账单最多降低C_total的f。在参考数字下,f = 5/85 = 5.9%。这是一个会计观察:当模型账单占总成本的一小部分时,仅优化该项无法解决审查受限的瓶颈。
将审查从60分钟减少到40分钟可产生不同规模的变化:C_total = $5 + $80 × (40/60) = $58.33,节省31.4%。在自主智能体循环中,人工监督较少,f可能很大,路由可能成为主要经济杠杆。在受昂贵人工审查约束的工作流程中,f较低。相关问题是如何主导总成本。
3. 不同系统控制成本的不同部分
现代AI系统通常看起来相似:智能体、编排、检索、评判和合成。相似形状并不意味着相同的工作。
路由:Kilo Gateway和RouteLLM
Kilo提供与OpenAI兼容的端点、多种模型、BYOK、使用跟踪、支出限制和组织控制。ByteByteGo描述了在已知模式(规划、编码、调试)上的路由,用户选择层级,服务器更新模型映射。报告的数字——平均请求成本降低约三分之一,80-90%的请求不需要前沿模型,层级差距超过10倍,以及因错误路由日常流量而估计每季度超支87,000美元——是供应商报告的,未经独立验证。一个理想化模型显示潜在规模:相对成本=0.15×1+0.85×0.10=0.235,相对减少76.5%。RouteLLM提供了主要研究证据:对于GPT-4/Mixtral-8×7B对,成本节省比为3.66倍,对应72.7%的相对成本降低。其成本模型使用短单轮提示和基准分数作为质量,不是编码智能体循环或仓库变更安全的证据。
Agentic RAG:充分上下文
Google描述了一个多智能体RAG,配备专门的充分上下文智能体。它比较查询、检索片段和草稿,命名缺失信息,并可以触发另一次检索。Google报告称,在事实性数据集上,准确率比标准RAG高出34%。充分上下文研究暴露了一个更广泛的故障模式:模型通常在上下文不足时错误回答而非弃权。引导弃权将Gemini、GPT和Gemma的正确回答率提高了2-10%。这支持了一个充分上下文循环,但不是T_rework或P_escape在软件开发中的测量减少。代码库不仅仅是文档语料库,它包含运行时行为、调用者、不变量和迁移。
多模型协商:共识不是证据
OpenRouter Fusion运行1-8个模型的并行面板。一个评判器返回结构化的比较:共识、矛盾、部分覆盖、独特见解和盲点;最终模型编写答案。文档描述了流程但未提供独立有效性基准。Google Research比较了180种智能体配置。独立拓扑将错误放大高达17.2倍,而集中协调将放大控制在4.4倍。多智能体将可并行的Finance-Agent结果提高了80.9%,但每个多智能体变体都将顺序的PlanCraft结果降低了39-70%。作者的预测模型为87%的未见配置选择了最优架构。此评估不包含仓库代码审查。更窄的工程假设是,价值取决于拓扑、任务可分解性、集中门和证据交接,而非智能体数量。
测试和静态分析
SAST、DAST、CodeQL、Semgrep、单元测试和突变测试对明确编码的属性在受控输入、配置和环境下的可重复检查。其质量受覆盖率、假阳性、假阴性和易闪性限制。它们是必要的,但并非总能揭示模型从未打开相关文件、基于错误假设得出结论或测试了实现细节而非系统不变量。绿色检查不是完整意图的证据。
4. 并列比较
不同方法的主要问题、决策单元、主要输出和自身不能解决的内容:
- 路由:模型访问、成本、策略;模型请求;完成+成本数据;不解决对工程变更的信任。
- Agentic RAG:不完整上下文;上下文充分性;有根基的答案;不解决补丁安全和代码库不变量。
- 多模型协商:单一答案的脆弱性;一致/分歧;共识+矛盾;不解决仓库声明的事实检查。
- 测试:可形式化的属性;测试/规则结果;通过/失败+诊断;不解决意图、假设和完整性。
- 验证工件:隐藏检查区域;合并决策;证据边界+裁决;不提供正确性保证。
这些系统不一定直接竞争。路由管理模型调用成本。Agentic RAG测试上下文充分性。多模型协商揭示分歧。测试检查形式化属性。验证工件应将那些信号连接到关于候选支持程度的决策。
5. 信任债务和隐藏检查工作
假设一个工程答案包含一组实质性主张:C = {c1, c2, ..., cn}。对于每个主张,审查员需要知道它是否得到证据支持、被反驳或仍是假设。一个粗糙的诊断指标是evidence_coverage = supported_claims / total_material_claims。如果一个答案包含20个实质性主张,其中12个有充分证据,则evidence_coverage = 60%。剩余40%未必错误,但仍是审查员需要检查的区域。如果工具不暴露该区域,工程师必须首先发现它,然后验证它。这就是隐藏的验证工作。
验证层的目标不是宣称答案绝对正确,而是:连接实质性主张与可检查的证据;暴露已检查和未检查的相关目标;将假设与支持的结论分开;保留批评和拒绝的假设;揭示开放的生产和PR风险;缩小手动搜索范围而不隐藏不确定性。审查仍然存在,但搜索区域应变得更小。
6. 额外验证何时物有所值
暂时忽略风险,额外检查花费ΔC,当它节省至少T_break_even = ΔC / R_hour时即可收回成本。在R_hour = $80时:额外花费$2需要节省1.5分钟审查;$5需要3.75分钟;$10需要7.5分钟;$20需要15分钟。将P_escape降低0.1个百分点(从1.0%降至0.9%),在L_escape = $10,000时,每次运行期望节省$10。每月100次运行节省$1,000。这是期望损失模型,非测量产品结果。
本文的核心论点:AI编码代理的有效性应通过总工程决策成本来衡量,而非仅看模型调用费用。一个注重证据的验证层,能够将模型输出与可验证的支撑证据相连接,才是降低审查负担、提升信任的关键。