2026-06-25 02:06 UTC+8站內改寫5 分鐘閱讀更新: 2026-06-25 02:11 UTC+8

AI編碼代理需要基於證據的審查，而不僅僅是更便宜的路徑選擇

本文分析了AI輔助編碼中審查環節的成本，指出模型調用費用僅佔總成本的一小部分，真正的瓶頸在於人工審查和返工。通過對比路由、檢索增強生成、多模型協商和自動化測試等方法，本文提出了一個驗證層應當連接主張與證據、縮小審查範圍，並探討了額外驗證的經濟效益。

來源Hacker News AI作者: CalmAngler

在AI輔助的工作流程中，代碼生成已不再是唯一的瓶頸。智能體系統能夠讀取倉庫、編輯文件、運行命令、編寫測試，並通過多步驟或多模型進行規劃、調用工具、檢索上下文並組裝答案。然而，真正被檢查的內容是什麼？模型哪些是假設的？在合併之前，結果在多大程度上是可靠的？

生成合理代碼的成本已經降低，但其基礎的檢查成本並未同步跟進。僅根據代幣價格、生成速度或智能體數量來比較AI工具，忽略了關鍵的工程決策：從請求到有理由的合併決策的路徑。

本文提出三個問題：一旦考慮調用、審查、返工和逃離錯誤風險，AI是否降低了總決策成本？路由、檢索、多模型協商和自動化檢查分別針對成本的哪個部分？驗證層應該產生什麼，其價值如何能被證偽而非僅僅聲稱？

1. 驗證税

生產力證據令人困惑。METR進行了一項隨機對照試驗，16名有經驗的開源開發人員在2025年初的工具下執行246個真實任務。結果發現，使用AI時任務平均耗時增加19%。2026年2月，METR報告稱更新的數據可能顯示更大的提升，但明確表示信號不可靠。對於返回的開發人員，完成時間變化估計為-18%，置信區間為[-38%, +9%]；對於新招募的開發人員，為-4%，置信區間為[-15%, +9%]。兩個區間都包含零效應。誠實的結論是，既不是“AI總是加速開發人員”，也不是“AI總是減慢開發人員”。生產力取決於工具成熟度、倉庫熟悉度、任務形狀、上下文獲取以及檢查結果的成本。

2025年DORA報告提供了不同的觀察視角，近5000名技術專業人員中，90%在工作中使用AI，超過80%感知到生產力提升，但30%對AI生成的代碼信任度低或沒有信任。AI採用與交付吞吐量和產品性能正相關，與交付穩定性負相關。這不是因果估計，但與系統假設一致：如果測試和交付控制不能隨變更量擴展，更快的本地生成可能增加下游負載。

Google七項研究的綜合發現，39%的外部開發人員對GenAI輸出質量信任度很低或完全不信任。審查和測試的嚴謹性感知，以及開發人員對AI使用位置的控制，與信任正相關。

審查本身不僅僅是缺陷發現。在Bacchelli和Bird對200個微軟審查線程和570條評論的研究中，代碼改進佔評論的29%，缺陷佔14%。作者將理解上下文和變更視為審查的核心，並將知識轉移作為獨立結果記錄。

一個説明性的審查負載模型：假設團隊每週處理20個PR，平均審查30分鐘，則每週10個審查員小時。如果AI將吞吐量翻倍而每個PR的審查成本不變，則變為40個PR × 30分鐘 = 20小時。如果AI輔助的PR變得更寬，審查時間增加25%，則40個PR × 37.5分鐘 = 25小時。這顯示機制：更快的生成可能將工作從編寫轉移到檢查，而不是消除工作。

2. 工程決策的總成本

代幣賬單不是總成本。定義一次決策的預期成本：C_total = C_model + C_tools + R_hour × (T_review + T_rework) + P_escape × L_escape。其中，C_model是模型調用，C_tools是CI、沙箱、檢索等計算，R_hour是每工程小時的內部成本，T_review是達到應用/審查/拒絕決策的時間，T_rework是合併前修復問題的預期時間，P_escape是實質性錯誤通過審查的概率，L_escape是此類逃脱的預期損失。

以一個説明性基線為例：C_model = $5，審查60分鐘，R_hour = $80，暫時忽略工具、返工和風險：C_total = $5 + $80 = $85。

純模型賬單優化的上限：如果模型調用佔總成本的比例為f = C_model / C_total，那麼在保持工作量、質量、審查、返工和風險不變的情況下，僅優化模型賬單最多降低C_total的f。在參考數字下，f = 5/85 = 5.9%。這是一個會計觀察：當模型賬單佔總成本的一小部分時，僅優化該項無法解決審查受限的瓶頸。

將審查從60分鐘減少到40分鐘可產生不同規模的變化：C_total = $5 + $80 × (40/60) = $58.33，節省31.4%。在自主智能體循環中，人工監督較少，f可能很大，路由可能成為主要經濟槓桿。在受昂貴人工審查約束的工作流程中，f較低。相關問題是如何主導總成本。

3. 不同系統控制成本的不同部分

現代AI系統通常看起來相似：智能體、編排、檢索、評判和合成。相似形狀並不意味着相同的工作。

路由：Kilo Gateway和RouteLLM

Kilo提供與OpenAI兼容的端點、多種模型、BYOK、使用跟蹤、支出限制和組織控制。ByteByteGo描述了在已知模式（規劃、編碼、調試）上的路由，用户選擇層級，服務器更新模型映射。報告的數字——平均請求成本降低約三分之一，80-90%的請求不需要前沿模型，層級差距超過10倍，以及因錯誤路由日常流量而估計每季度超支87,000美元——是供應商報告的，未經獨立驗證。一個理想化模型顯示潛在規模：相對成本=0.15×1+0.85×0.10=0.235，相對減少76.5%。RouteLLM提供了主要研究證據：對於GPT-4/Mixtral-8×7B對，成本節省比為3.66倍，對應72.7%的相對成本降低。其成本模型使用短單輪提示和基準分數作為質量，不是編碼智能體循環或倉庫變更安全的證據。

Agentic RAG：充分上下文

Google描述了一個多智能體RAG，配備專門的充分上下文智能體。它比較查詢、檢索片段和草稿，命名缺失信息，並可以觸發另一次檢索。Google報告稱，在事實性數據集上，準確率比標準RAG高出34%。充分上下文研究暴露了一個更廣泛的故障模式：模型通常在上下文不足時錯誤回答而非棄權。引導棄權將Gemini、GPT和Gemma的正確回答率提高了2-10%。這支持了一個充分上下文循環，但不是T_rework或P_escape在軟件開發中的測量減少。代碼庫不僅僅是文檔語料庫，它包含運行時行為、調用者、不變量和遷移。

多模型協商：共識不是證據

OpenRouter Fusion運行1-8個模型的並行面板。一個評判器返回結構化的比較：共識、矛盾、部分覆蓋、獨特見解和盲點；最終模型編寫答案。文檔描述了流程但未提供獨立有效性基準。Google Research比較了180種智能體配置。獨立拓撲將錯誤放大高達17.2倍，而集中協調將放大控制在4.4倍。多智能體將可並行的Finance-Agent結果提高了80.9%，但每個多智能體變體都將順序的PlanCraft結果降低了39-70%。作者的預測模型為87%的未見配置選擇了最優架構。此評估不包含倉庫代碼審查。更窄的工程假設是，價值取決於拓撲、任務可分解性、集中門和證據交接，而非智能體數量。

測試和靜態分析

SAST、DAST、CodeQL、Semgrep、單元測試和突變測試對明確編碼的屬性在受控輸入、配置和環境下的可重複檢查。其質量受覆蓋率、假陽性、假陰性和易閃性限制。它們是必要的，但並非總能揭示模型從未打開相關文件、基於錯誤假設得出結論或測試了實現細節而非系統不變量。綠色檢查不是完整意圖的證據。

4. 並列比較

不同方法的主要問題、決策單元、主要輸出和自身不能解決的內容：

路由：模型訪問、成本、策略；模型請求；完成+成本數據；不解決對工程變更的信任。
Agentic RAG：不完整上下文；上下文充分性；有根基的答案；不解決補丁安全和代碼庫不變量。
多模型協商：單一答案的脆弱性；一致/分歧；共識+矛盾；不解決倉庫聲明的事實檢查。
測試：可形式化的屬性；測試/規則結果；通過/失敗+診斷；不解決意圖、假設和完整性。
驗證工件：隱藏檢查區域；合併決策；證據邊界+裁決；不提供正確性保證。

這些系統不一定直接競爭。路由管理模型調用成本。Agentic RAG測試上下文充分性。多模型協商揭示分歧。測試檢查形式化屬性。驗證工件應將那些信號連接到關於候選支持程度的決策。

5. 信任債務和隱藏檢查工作

假設一個工程答案包含一組實質性主張：C = {c1, c2, ..., cn}。對於每個主張，審查員需要知道它是否得到證據支持、被反駁或仍是假設。一個粗糙的診斷指標是evidence_coverage = supported_claims / total_material_claims。如果一個答案包含20個實質性主張，其中12個有充分證據，則evidence_coverage = 60%。剩餘40%未必錯誤，但仍是審查員需要檢查的區域。如果工具不暴露該區域，工程師必須首先發現它，然後驗證它。這就是隱藏的驗證工作。

驗證層的目標不是宣稱答案絕對正確，而是：連接實質性主張與可檢查的證據；暴露已檢查和未檢查的相關目標；將假設與支持的結論分開；保留批評和拒絕的假設；揭示開放的生產和PR風險；縮小手動搜索範圍而不隱藏不確定性。審查仍然存在，但搜索區域應變得更小。

6. 額外驗證何時物有所值

暫時忽略風險，額外檢查花費ΔC，當它節省至少T_break_even = ΔC / R_hour時即可收回成本。在R_hour = $80時：額外花費$2需要節省1.5分鐘審查；$5需要3.75分鐘；$10需要7.5分鐘；$20需要15分鐘。將P_escape降低0.1個百分點（從1.0%降至0.9%），在L_escape = $10,000時，每次運行期望節省$10。每月100次運行節省$1,000。這是期望損失模型，非測量產品結果。

本文的核心論點：AI編碼代理的有效性應通過總工程決策成本來衡量，而非僅看模型調用費用。一個注重證據的驗證層，能夠將模型輸出與可驗證的支撐證據相連接，才是降低審查負擔、提升信任的關鍵。