2026-07-02 02:16 UTC+8站內改寫1 分鐘閱讀更新: 2026-07-02 02:32 UTC+8

AI根因分析的難點已不再是模型本身

本文指出，AI根因分析（RCA）的真正挑戰不在於模型的推理能力，而在於資料準備和工具鏈（即“護欄”）。作者透過實驗展示了不同模型在給定完整上下文時的表現，強調預處理的確定性管道比模型本身更重要。

來源Hacker News AI作者: nikolay_sivko

本文由Nikolay Sivko撰寫，深入探討了AI根因分析（RCA）的現狀。作者認為，將RCA簡單地交給LLM處理是不夠的，因為實際工作包含兩個截然不同的部分：推理和護欄。

推理是指模型根據已有資料連線因果關係的能力。例如，當服務變慢時，模型需要將CPU耗盡、節點負載高和鄰居程序佔用資源這三個事實關聯起來，得出“吵鬧鄰居”的結論。而護欄則涉及模型周圍的一切——輸入什麼資料、以何種形式輸入。這通常包括工具呼叫，讓模型決定獲取哪些資訊以及何時停止。許多錯誤源於模型未能獲得正確資料，而非推理能力不足。

為了分離這兩個方面，Coroot的AI RCA採用確定性管道進行訊號關聯和結果生成，模型只需基於聚焦的上下文進行推理，無需主動獲取資料。實驗選取了一個真實故障場景：網路延遲導致catalog服務與Postgres資料庫之間的通訊變慢，最終引發前端502錯誤。實際原因是叢集中的Chaos Mesh實驗注入延遲。模型需正確識別該實驗，並指出刪除實驗及其排程。

測試了11個模型，結果分為三檔：✅（正確根因和完整修復）、🟡（正確根因但不完整修復）、❌（錯誤根因）。前沿模型（Claude Opus 4.8、GPT-5.5、Gemini 3.1 Pro）全部透過；大型開源模型（DeepSeek V4、GLM-5.2等）多數透過；小型模型中僅Gemma 4 31B透過，而更大的Qwen系列失敗。失敗原因分為兩類：真正的推理錯誤（如錯誤歸因於資料庫）和包裝性問題（如格式不當）。後者可透過改進護欄解決。

作者總結，推理部分已基本解決，護欄才是當前難點。隨著遙測資料快速增長，盲目將所有原始資料交給LLM會變得緩慢且昂貴。真正的挑戰在於在呼叫模型之前準備好緊湊、正確的上下文。