AI編碼代理需要基於證據的審查,而不僅僅是更便宜的路徑選擇
本文分析了AI輔助編碼中審查環節的成本,指出模型調用費用僅佔總成本的一小部分,真正的瓶頸在於人工審查和返工。通過對比路由、檢索增強生成、多模型協商和自動化測試等方法,本文提出了一個驗證層應當連接主張與證據、縮小審查範圍,並探討了額外驗證的經濟效益。
在AI輔助的工作流程中,代碼生成已不再是唯一的瓶頸。智能體系統能夠讀取倉庫、編輯文件、運行命令、編寫測試,並通過多步驟或多模型進行規劃、調用工具、檢索上下文並組裝答案。然而,真正被檢查的內容是什麼?模型哪些是假設的?在合併之前,結果在多大程度上是可靠的?
生成合理代碼的成本已經降低,但其基礎的檢查成本並未同步跟進。僅根據代幣價格、生成速度或智能體數量來比較AI工具,忽略了關鍵的工程決策:從請求到有理由的合併決策的路徑。
本文提出三個問題:一旦考慮調用、審查、返工和逃離錯誤風險,AI是否降低了總決策成本?路由、檢索、多模型協商和自動化檢查分別針對成本的哪個部分?驗證層應該產生什麼,其價值如何能被證偽而非僅僅聲稱?
1. 驗證税
生產力證據令人困惑。METR進行了一項隨機對照試驗,16名有經驗的開源開發人員在2025年初的工具下執行246個真實任務。結果發現,使用AI時任務平均耗時增加19%。2026年2月,METR報告稱更新的數據可能顯示更大的提升,但明確表示信號不可靠。對於返回的開發人員,完成時間變化估計為-18%,置信區間為[-38%, +9%];對於新招募的開發人員,為-4%,置信區間為[-15%, +9%]。兩個區間都包含零效應。誠實的結論是,既不是“AI總是加速開發人員”,也不是“AI總是減慢開發人員”。生產力取決於工具成熟度、倉庫熟悉度、任務形狀、上下文獲取以及檢查結果的成本。
2025年DORA報告提供了不同的觀察視角,近5000名技術專業人員中,90%在工作中使用AI,超過80%感知到生產力提升,但30%對AI生成的代碼信任度低或沒有信任。AI採用與交付吞吐量和產品性能正相關,與交付穩定性負相關。這不是因果估計,但與系統假設一致:如果測試和交付控制不能隨變更量擴展,更快的本地生成可能增加下游負載。
Google七項研究的綜合發現,39%的外部開發人員對GenAI輸出質量信任度很低或完全不信任。審查和測試的嚴謹性感知,以及開發人員對AI使用位置的控制,與信任正相關。
審查本身不僅僅是缺陷發現。在Bacchelli和Bird對200個微軟審查線程和570條評論的研究中,代碼改進佔評論的29%,缺陷佔14%。作者將理解上下文和變更視為審查的核心,並將知識轉移作為獨立結果記錄。
一個説明性的審查負載模型:假設團隊每週處理20個PR,平均審查30分鐘,則每週10個審查員小時。如果AI將吞吐量翻倍而每個PR的審查成本不變,則變為40個PR × 30分鐘 = 20小時。如果AI輔助的PR變得更寬,審查時間增加25%,則40個PR × 37.5分鐘 = 25小時。這顯示機制:更快的生成可能將工作從編寫轉移到檢查,而不是消除工作。
2. 工程決策的總成本
代幣賬單不是總成本。定義一次決策的預期成本:C_total = C_model + C_tools + R_hour × (T_review + T_rework) + P_escape × L_escape。其中,C_model是模型調用,C_tools是CI、沙箱、檢索等計算,R_hour是每工程小時的內部成本,T_review是達到應用/審查/拒絕決策的時間,T_rework是合併前修復問題的預期時間,P_escape是實質性錯誤通過審查的概率,L_escape是此類逃脱的預期損失。
以一個説明性基線為例:C_model = $5,審查60分鐘,R_hour = $80,暫時忽略工具、返工和風險:C_total = $5 + $80 = $85。
純模型賬單優化的上限:如果模型調用佔總成本的比例為f = C_model / C_total,那麼在保持工作量、質量、審查、返工和風險不變的情況下,僅優化模型賬單最多降低C_total的f。在參考數字下,f = 5/85 = 5.9%。這是一個會計觀察:當模型賬單佔總成本的一小部分時,僅優化該項無法解決審查受限的瓶頸。
將審查從60分鐘減少到40分鐘可產生不同規模的變化:C_total = $5 + $80 × (40/60) = $58.33,節省31.4%。在自主智能體循環中,人工監督較少,f可能很大,路由可能成為主要經濟槓桿。在受昂貴人工審查約束的工作流程中,f較低。相關問題是如何主導總成本。
3. 不同系統控制成本的不同部分
現代AI系統通常看起來相似:智能體、編排、檢索、評判和合成。相似形狀並不意味着相同的工作。
路由:Kilo Gateway和RouteLLM
Kilo提供與OpenAI兼容的端點、多種模型、BYOK、使用跟蹤、支出限制和組織控制。ByteByteGo描述了在已知模式(規劃、編碼、調試)上的路由,用户選擇層級,服務器更新模型映射。報告的數字——平均請求成本降低約三分之一,80-90%的請求不需要前沿模型,層級差距超過10倍,以及因錯誤路由日常流量而估計每季度超支87,000美元——是供應商報告的,未經獨立驗證。一個理想化模型顯示潛在規模:相對成本=0.15×1+0.85×0.10=0.235,相對減少76.5%。RouteLLM提供了主要研究證據:對於GPT-4/Mixtral-8×7B對,成本節省比為3.66倍,對應72.7%的相對成本降低。其成本模型使用短單輪提示和基準分數作為質量,不是編碼智能體循環或倉庫變更安全的證據。
Agentic RAG:充分上下文
Google描述了一個多智能體RAG,配備專門的充分上下文智能體。它比較查詢、檢索片段和草稿,命名缺失信息,並可以觸發另一次檢索。Google報告稱,在事實性數據集上,準確率比標準RAG高出34%。充分上下文研究暴露了一個更廣泛的故障模式:模型通常在上下文不足時錯誤回答而非棄權。引導棄權將Gemini、GPT和Gemma的正確回答率提高了2-10%。這支持了一個充分上下文循環,但不是T_rework或P_escape在軟件開發中的測量減少。代碼庫不僅僅是文檔語料庫,它包含運行時行為、調用者、不變量和遷移。
多模型協商:共識不是證據
OpenRouter Fusion運行1-8個模型的並行面板。一個評判器返回結構化的比較:共識、矛盾、部分覆蓋、獨特見解和盲點;最終模型編寫答案。文檔描述了流程但未提供獨立有效性基準。Google Research比較了180種智能體配置。獨立拓撲將錯誤放大高達17.2倍,而集中協調將放大控制在4.4倍。多智能體將可並行的Finance-Agent結果提高了80.9%,但每個多智能體變體都將順序的PlanCraft結果降低了39-70%。作者的預測模型為87%的未見配置選擇了最優架構。此評估不包含倉庫代碼審查。更窄的工程假設是,價值取決於拓撲、任務可分解性、集中門和證據交接,而非智能體數量。
測試和靜態分析
SAST、DAST、CodeQL、Semgrep、單元測試和突變測試對明確編碼的屬性在受控輸入、配置和環境下的可重複檢查。其質量受覆蓋率、假陽性、假陰性和易閃性限制。它們是必要的,但並非總能揭示模型從未打開相關文件、基於錯誤假設得出結論或測試了實現細節而非系統不變量。綠色檢查不是完整意圖的證據。
4. 並列比較
不同方法的主要問題、決策單元、主要輸出和自身不能解決的內容:
- 路由:模型訪問、成本、策略;模型請求;完成+成本數據;不解決對工程變更的信任。
- Agentic RAG:不完整上下文;上下文充分性;有根基的答案;不解決補丁安全和代碼庫不變量。
- 多模型協商:單一答案的脆弱性;一致/分歧;共識+矛盾;不解決倉庫聲明的事實檢查。
- 測試:可形式化的屬性;測試/規則結果;通過/失敗+診斷;不解決意圖、假設和完整性。
- 驗證工件:隱藏檢查區域;合併決策;證據邊界+裁決;不提供正確性保證。
這些系統不一定直接競爭。路由管理模型調用成本。Agentic RAG測試上下文充分性。多模型協商揭示分歧。測試檢查形式化屬性。驗證工件應將那些信號連接到關於候選支持程度的決策。
5. 信任債務和隱藏檢查工作
假設一個工程答案包含一組實質性主張:C = {c1, c2, ..., cn}。對於每個主張,審查員需要知道它是否得到證據支持、被反駁或仍是假設。一個粗糙的診斷指標是evidence_coverage = supported_claims / total_material_claims。如果一個答案包含20個實質性主張,其中12個有充分證據,則evidence_coverage = 60%。剩餘40%未必錯誤,但仍是審查員需要檢查的區域。如果工具不暴露該區域,工程師必須首先發現它,然後驗證它。這就是隱藏的驗證工作。
驗證層的目標不是宣稱答案絕對正確,而是:連接實質性主張與可檢查的證據;暴露已檢查和未檢查的相關目標;將假設與支持的結論分開;保留批評和拒絕的假設;揭示開放的生產和PR風險;縮小手動搜索範圍而不隱藏不確定性。審查仍然存在,但搜索區域應變得更小。
6. 額外驗證何時物有所值
暫時忽略風險,額外檢查花費ΔC,當它節省至少T_break_even = ΔC / R_hour時即可收回成本。在R_hour = $80時:額外花費$2需要節省1.5分鐘審查;$5需要3.75分鐘;$10需要7.5分鐘;$20需要15分鐘。將P_escape降低0.1個百分點(從1.0%降至0.9%),在L_escape = $10,000時,每次運行期望節省$10。每月100次運行節省$1,000。這是期望損失模型,非測量產品結果。
本文的核心論點:AI編碼代理的有效性應通過總工程決策成本來衡量,而非僅看模型調用費用。一個注重證據的驗證層,能夠將模型輸出與可驗證的支撐證據相連接,才是降低審查負擔、提升信任的關鍵。