2026-06-25 02:06 UTC+8站内改写5 分钟阅读更新: 2026-06-25 02:11 UTC+8

AI编码代理需要基于证据的审查，而不仅仅是更便宜的路径选择

本文分析了AI辅助编码中审查环节的成本，指出模型调用费用仅占总成本的一小部分，真正的瓶颈在于人工审查和返工。通过对比路由、检索增强生成、多模型协商和自动化测试等方法，本文提出了一个验证层应当连接主张与证据、缩小审查范围，并探讨了额外验证的经济效益。

来源Hacker News AI作者: CalmAngler

在AI辅助的工作流程中，代码生成已不再是唯一的瓶颈。智能体系统能够读取仓库、编辑文件、运行命令、编写测试，并通过多步骤或多模型进行规划、调用工具、检索上下文并组装答案。然而，真正被检查的内容是什么？模型哪些是假设的？在合并之前，结果在多大程度上是可靠的？

生成合理代码的成本已经降低，但其基础的检查成本并未同步跟进。仅根据代币价格、生成速度或智能体数量来比较AI工具，忽略了关键的工程决策：从请求到有理由的合并决策的路径。

本文提出三个问题：一旦考虑调用、审查、返工和逃离错误风险，AI是否降低了总决策成本？路由、检索、多模型协商和自动化检查分别针对成本的哪个部分？验证层应该产生什么，其价值如何能被证伪而非仅仅声称？

1. 验证税

生产力证据令人困惑。METR进行了一项随机对照试验，16名有经验的开源开发人员在2025年初的工具下执行246个真实任务。结果发现，使用AI时任务平均耗时增加19%。2026年2月，METR报告称更新的数据可能显示更大的提升，但明确表示信号不可靠。对于返回的开发人员，完成时间变化估计为-18%，置信区间为[-38%, +9%]；对于新招募的开发人员，为-4%，置信区间为[-15%, +9%]。两个区间都包含零效应。诚实的结论是，既不是“AI总是加速开发人员”，也不是“AI总是减慢开发人员”。生产力取决于工具成熟度、仓库熟悉度、任务形状、上下文获取以及检查结果的成本。

2025年DORA报告提供了不同的观察视角，近5000名技术专业人员中，90%在工作中使用AI，超过80%感知到生产力提升，但30%对AI生成的代码信任度低或没有信任。AI采用与交付吞吐量和产品性能正相关，与交付稳定性负相关。这不是因果估计，但与系统假设一致：如果测试和交付控制不能随变更量扩展，更快的本地生成可能增加下游负载。

Google七项研究的综合发现，39%的外部开发人员对GenAI输出质量信任度很低或完全不信任。审查和测试的严谨性感知，以及开发人员对AI使用位置的控制，与信任正相关。

审查本身不仅仅是缺陷发现。在Bacchelli和Bird对200个微软审查线程和570条评论的研究中，代码改进占评论的29%，缺陷占14%。作者将理解上下文和变更视为审查的核心，并将知识转移作为独立结果记录。

一个说明性的审查负载模型：假设团队每周处理20个PR，平均审查30分钟，则每周10个审查员小时。如果AI将吞吐量翻倍而每个PR的审查成本不变，则变为40个PR × 30分钟 = 20小时。如果AI辅助的PR变得更宽，审查时间增加25%，则40个PR × 37.5分钟 = 25小时。这显示机制：更快的生成可能将工作从编写转移到检查，而不是消除工作。

2. 工程决策的总成本

代币账单不是总成本。定义一次决策的预期成本：C_total = C_model + C_tools + R_hour × (T_review + T_rework) + P_escape × L_escape。其中，C_model是模型调用，C_tools是CI、沙箱、检索等计算，R_hour是每工程小时的内部成本，T_review是达到应用/审查/拒绝决策的时间，T_rework是合并前修复问题的预期时间，P_escape是实质性错误通过审查的概率，L_escape是此类逃脱的预期损失。

以一个说明性基线为例：C_model = $5，审查60分钟，R_hour = $80，暂时忽略工具、返工和风险：C_total = $5 + $80 = $85。

纯模型账单优化的上限：如果模型调用占总成本的比例为f = C_model / C_total，那么在保持工作量、质量、审查、返工和风险不变的情况下，仅优化模型账单最多降低C_total的f。在参考数字下，f = 5/85 = 5.9%。这是一个会计观察：当模型账单占总成本的一小部分时，仅优化该项无法解决审查受限的瓶颈。

将审查从60分钟减少到40分钟可产生不同规模的变化：C_total = $5 + $80 × (40/60) = $58.33，节省31.4%。在自主智能体循环中，人工监督较少，f可能很大，路由可能成为主要经济杠杆。在受昂贵人工审查约束的工作流程中，f较低。相关问题是如何主导总成本。

3. 不同系统控制成本的不同部分

现代AI系统通常看起来相似：智能体、编排、检索、评判和合成。相似形状并不意味着相同的工作。

路由：Kilo Gateway和RouteLLM

Kilo提供与OpenAI兼容的端点、多种模型、BYOK、使用跟踪、支出限制和组织控制。ByteByteGo描述了在已知模式（规划、编码、调试）上的路由，用户选择层级，服务器更新模型映射。报告的数字——平均请求成本降低约三分之一，80-90%的请求不需要前沿模型，层级差距超过10倍，以及因错误路由日常流量而估计每季度超支87,000美元——是供应商报告的，未经独立验证。一个理想化模型显示潜在规模：相对成本=0.15×1+0.85×0.10=0.235，相对减少76.5%。RouteLLM提供了主要研究证据：对于GPT-4/Mixtral-8×7B对，成本节省比为3.66倍，对应72.7%的相对成本降低。其成本模型使用短单轮提示和基准分数作为质量，不是编码智能体循环或仓库变更安全的证据。

Agentic RAG：充分上下文

Google描述了一个多智能体RAG，配备专门的充分上下文智能体。它比较查询、检索片段和草稿，命名缺失信息，并可以触发另一次检索。Google报告称，在事实性数据集上，准确率比标准RAG高出34%。充分上下文研究暴露了一个更广泛的故障模式：模型通常在上下文不足时错误回答而非弃权。引导弃权将Gemini、GPT和Gemma的正确回答率提高了2-10%。这支持了一个充分上下文循环，但不是T_rework或P_escape在软件开发中的测量减少。代码库不仅仅是文档语料库，它包含运行时行为、调用者、不变量和迁移。

多模型协商：共识不是证据

OpenRouter Fusion运行1-8个模型的并行面板。一个评判器返回结构化的比较：共识、矛盾、部分覆盖、独特见解和盲点；最终模型编写答案。文档描述了流程但未提供独立有效性基准。Google Research比较了180种智能体配置。独立拓扑将错误放大高达17.2倍，而集中协调将放大控制在4.4倍。多智能体将可并行的Finance-Agent结果提高了80.9%，但每个多智能体变体都将顺序的PlanCraft结果降低了39-70%。作者的预测模型为87%的未见配置选择了最优架构。此评估不包含仓库代码审查。更窄的工程假设是，价值取决于拓扑、任务可分解性、集中门和证据交接，而非智能体数量。

测试和静态分析

SAST、DAST、CodeQL、Semgrep、单元测试和突变测试对明确编码的属性在受控输入、配置和环境下的可重复检查。其质量受覆盖率、假阳性、假阴性和易闪性限制。它们是必要的，但并非总能揭示模型从未打开相关文件、基于错误假设得出结论或测试了实现细节而非系统不变量。绿色检查不是完整意图的证据。

4. 并列比较

不同方法的主要问题、决策单元、主要输出和自身不能解决的内容：

路由：模型访问、成本、策略；模型请求；完成+成本数据；不解决对工程变更的信任。
Agentic RAG：不完整上下文；上下文充分性；有根基的答案；不解决补丁安全和代码库不变量。
多模型协商：单一答案的脆弱性；一致/分歧；共识+矛盾；不解决仓库声明的事实检查。
测试：可形式化的属性；测试/规则结果；通过/失败+诊断；不解决意图、假设和完整性。
验证工件：隐藏检查区域；合并决策；证据边界+裁决；不提供正确性保证。

这些系统不一定直接竞争。路由管理模型调用成本。Agentic RAG测试上下文充分性。多模型协商揭示分歧。测试检查形式化属性。验证工件应将那些信号连接到关于候选支持程度的决策。

5. 信任债务和隐藏检查工作

假设一个工程答案包含一组实质性主张：C = {c1, c2, ..., cn}。对于每个主张，审查员需要知道它是否得到证据支持、被反驳或仍是假设。一个粗糙的诊断指标是evidence_coverage = supported_claims / total_material_claims。如果一个答案包含20个实质性主张，其中12个有充分证据，则evidence_coverage = 60%。剩余40%未必错误，但仍是审查员需要检查的区域。如果工具不暴露该区域，工程师必须首先发现它，然后验证它。这就是隐藏的验证工作。

验证层的目标不是宣称答案绝对正确，而是：连接实质性主张与可检查的证据；暴露已检查和未检查的相关目标；将假设与支持的结论分开；保留批评和拒绝的假设；揭示开放的生产和PR风险；缩小手动搜索范围而不隐藏不确定性。审查仍然存在，但搜索区域应变得更小。

6. 额外验证何时物有所值

暂时忽略风险，额外检查花费ΔC，当它节省至少T_break_even = ΔC / R_hour时即可收回成本。在R_hour = $80时：额外花费$2需要节省1.5分钟审查；$5需要3.75分钟；$10需要7.5分钟；$20需要15分钟。将P_escape降低0.1个百分点（从1.0%降至0.9%），在L_escape = $10,000时，每次运行期望节省$10。每月100次运行节省$1,000。这是期望损失模型，非测量产品结果。

本文的核心论点：AI编码代理的有效性应通过总工程决策成本来衡量，而非仅看模型调用费用。一个注重证据的验证层，能够将模型输出与可验证的支撑证据相连接，才是降低审查负担、提升信任的关键。