2026-07-02 02:16 UTC+8站內改寫1 分鐘閱讀更新: 2026-07-02 02:32 UTC+8

AI根因分析的難點已不再是模型本身

本文指出，AI根因分析（RCA）的真正挑戰不在於模型的推理能力，而在於數據準備和工具鏈（即“護欄”）。作者通過實驗展示了不同模型在給定完整上下文時的表現，強調預處理的確定性管道比模型本身更重要。

來源Hacker News AI作者: nikolay_sivko

本文由Nikolay Sivko撰寫，深入探討了AI根因分析（RCA）的現狀。作者認為，將RCA簡單地交給LLM處理是不夠的，因為實際工作包含兩個截然不同的部分：推理和護欄。

推理是指模型根據已有數據連接因果關係的能力。例如，當服務變慢時，模型需要將CPU耗盡、節點負載高和鄰居進程佔用資源這三個事實關聯起來，得出“吵鬧鄰居”的結論。而護欄則涉及模型周圍的一切——輸入什麼數據、以何種形式輸入。這通常包括工具調用，讓模型決定獲取哪些信息以及何時停止。許多錯誤源於模型未能獲得正確數據，而非推理能力不足。

為了分離這兩個方面，Coroot的AI RCA採用確定性管道進行信號關聯和結果生成，模型只需基於聚焦的上下文進行推理，無需主動獲取數據。實驗選取了一個真實故障場景：網絡延遲導致catalog服務與Postgres數據庫之間的通信變慢，最終引發前端502錯誤。實際原因是集羣中的Chaos Mesh實驗注入延遲。模型需正確識別該實驗，並指出刪除實驗及其調度。

測試了11個模型，結果分為三檔：✅（正確根因和完整修復）、🟡（正確根因但不完整修復）、❌（錯誤根因）。前沿模型（Claude Opus 4.8、GPT-5.5、Gemini 3.1 Pro）全部通過；大型開源模型（DeepSeek V4、GLM-5.2等）多數通過；小型模型中僅Gemma 4 31B通過，而更大的Qwen系列失敗。失敗原因分為兩類：真正的推理錯誤（如錯誤歸因於數據庫）和包裝性問題（如格式不當）。後者可通過改進護欄解決。

作者總結，推理部分已基本解決，護欄才是當前難點。隨着遙測數據快速增長，盲目將所有原始數據交給LLM會變得緩慢且昂貴。真正的挑戰在於在調用模型之前準備好緊湊、正確的上下文。