AI News HubLIVE
站内改写

智能體可觀測性需要反饋以驅動學習

本文由LangChain創始人Harrison Chase撰寫,闡述了智能體可觀測性的核心價值不僅是調試,而是驅動學習循環。他強調,僅靠追蹤是不夠的,必須結合反饋信號(用户反饋、間接信號、大模型評判、規則等)才能系統地改進模型、框架和上下文。文章詳細探討了學習發生的多個層面(模型、框架、上下文),以及如何通過追蹤與反饋結合實現人工或自動化的持續改進。最後,他指出一個完善的可觀測性平台應具備存儲追蹤、存儲反饋和生成反饋三大能力。

文章情報

工程師中級

要點

  • 智能體可觀測性的核心是驅動學習,而不僅僅是調試。
  • 反饋信號(用户、間接、LLM評判、規則)將追蹤從被動記錄轉化為訓練信號。
  • 學習可在模型、框架、上下文三個層面發生,均依賴追蹤與反饋。
  • 可觀測性平台需要存儲追蹤、存儲反饋並自動生成反饋。

為甚麼重要

這條新聞值得關注,因為智能體可觀測性的核心是驅動學習,而不僅僅是調試。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

大多數團隊最初將智能體可觀測性視為調試工具。當出現問題時,開發者打開追蹤鏈,檢查每一步,找出智能體在哪一步做出了錯誤決策。這種用法確實有用,但視野過於狹窄。

可觀測性的更深層角色是驅動學習。然而,僅靠追蹤本身無法形成這一循環。還需要反饋——即那些能夠告訴你智能體行為是否有用、被接受、被拒絕、低效、存在風險或出錯的信號。這種學習不限於模型訓練意義上的學習,而是貫穿整個智能體系統:模型應該做什麼、框架應如何引導模型、需要哪些上下文、哪些故障模式反覆出現、哪些行為真正對用户有效。

追蹤不僅僅是事件記錄,反饋也不僅僅是最後給出的評分。二者結合,構成了系統改進的原始素材。

學習可以發生在多個層面。模型層面:你可能發現模型在特定示例中持續錯誤分類請求、選錯工具或未能遵守策略。這些追蹤可用於通過監督微調或強化學習來更新模型權重。框架層面:框架是模型周圍的一切,包括提示詞、工具架構、權限檢查、控制流、記憶更新邏輯、路由、重試和護欄。追蹤可能顯示,模型能力本身沒問題,但腳手架錯了——比如工具描述模糊、缺少讀前寫後約束、系統提示詞做出了錯誤權衡。上下文層面:智能體對提供的信息極其敏感,包括檢索文檔、記憶、用户偏好、工具結果、先前輪次和環境狀態。追蹤可以揭示,模型在接收到錯誤或缺失上下文的情況下做出了合理決策。這種情況下的學習循環應改進上下文的檢索、存儲、壓縮或丟棄。這裏通常被稱為記憶。

關鍵點在於,所有這些學習循環都由追蹤驅動。如果不知道智能體看到了什麼、做了什麼、以及隨後發生了什麼,就無法可靠地知道該改進什麼。這就是為什麼智能體可觀測性驅動智能體評估——追蹤讓智能體行為變得可見。

學習可以是人工驅動或自動化的。人工驅動:開發者查看追蹤,發現智能體調用了錯誤工具,然後更新提示詞或工具架構。產品經理查看一組失敗對話,意識到產品需要新工作流。標註員標記追蹤,以便團隊構建更好的評估數據集。這仍然是學習,只是有人類在其中。自動化:系統可採樣生產追蹤,運行在線評估,檢測已知故障模式,將示例添加到數據集,或在發現異常時觸發審查隊列。智能體本身不需要自動改進,自動化只需識別哪些追蹤值得關注,並將其轉化為結構化反饋。

對於單個低流量智能體,手動審查可能足夠。但對於大量智能體或高流量生產環境,這就變成了基礎設施問題:需要捕獲追蹤、過濾、評分、路由,並保留重要的那些。

追蹤是必要的,但並不充分。追蹤告訴你發生了什麼,但本身並不告訴你發生的事是好是壞。這個區別很重要:智能體可能在40步內完成一項任務,但同樣的任務本應只需6步;它可能給出自信的最終答案,但用户可能拒絕了它;它可能避免了報錯,但仍然未能滿足用户意圖;它可能調用了正確的工具,但參數有微妙錯誤。

要從追蹤中學習,需要將反饋附加到追蹤上。反饋將可觀測性從被動記錄轉變為訓練信號、調試信號、產品信號或評估信號。沒有反饋,你只有一大堆軌跡;有了反饋,你就可以開始提出有用的問題:哪些軌跡代表成功?哪些代表失敗?失敗是由模型、框架還是上下文引起的?哪些失敗值得轉化為評估?哪些行為在隨時間改善?

核心要求是:將反饋與智能體可觀測性數據一起存儲。

反饋可以來自多種渠道。最明顯的是直接用户反饋:點贊、踩、星級評分或文字糾正。這種信號易於理解,但通常稀疏,大多數用户不會留下顯式反饋。其次是間接用户反饋:對於編碼智能體,可能是接受的行數、還原的差異、編輯後通過的測試,或者用户是否保留了生成的更改;對於支持智能體,可能是用户是否重新打開了工單;對於研究智能體,可能是用户是否複製了答案或再次提出相同問題。這些信號比顯式評分更嘈雜,但往往更豐富。你還可以使用大模型作為評判生成反饋:評判器可以評估答案是否有幫助、智能體是否遵守策略、軌跡是否可疑。這可以在規模上運行,尤其適合在在線評估中處理生產追蹤。雖然不是完美,需要校準,但它為團隊提供了一種在人類審查太慢時創建結構化反饋的方式。最後,反饋可以是確定性的:規則和正則表達式常被低估。如果已知某種故障模式,就將其編碼;如果智能體未經批准不應調用破壞性命令,就檢查它;如果響應應包含引用,就驗證它;如果編碼智能體顯示用户挫敗跡象,就檢測它。

Claude Code的泄露事件使這一點具體化。多篇報道發現,Claude Code使用正則表達式在userPromptKeywords.ts中檢測用户提示中的挫敗詞彙和短語。PCWorld報道該正則表達式查找“wtf”“horrible”“awful”“this sucks”等詞。從工程角度看,這一模式具有啓發性:並非每個反饋信號都需要模型調用。如果一條廉價規則就能捕獲有用信號,就使用它——並清楚説明該信號如何存儲和使用。

綜上所述,可觀測性平台需要具備三項核心能力。第一,存儲追蹤:這是基礎層,需要完整的智能體行為軌跡,包括模型調用、工具調用、輸入輸出、元數據、計時、錯誤和中間狀態。理想情況下,能兼容各種框架,而不限於某一個。LangSmith支持來自30多個框架的追蹤,並能通過OpenTelemetry集成。第二,存儲反饋:反饋不應孤立於追蹤之外的電子表格或分析系統。它應直接附加到所評估的運行、追蹤或線程上,從而允許按反饋過濾、比較好壞軌跡、從真實失敗構建數據集、跟蹤更改是否改善了重要行為。LangSmith支持捕獲反饋並將其與追蹤關聯。第三,生成反饋:部分反饋來自用户,但更多有用反饋應由系統自身產生,包括規則、評估器、採樣、標註隊列、告警以及對歷史追蹤的回填。LangSmith支持自動化規則和在線評估,包括在生產追蹤上運行的大模型評判。

這就是智能體團隊需要的產品形態:存儲追蹤、存儲反饋、生成反饋。學習循環依賴於追蹤加反饋。可觀測性的目的不僅是查看追蹤,而是從中學習。追蹤告訴你發生了什麼,反饋告訴你它的含義。兩者結合,讓你能改進模型、框架和上下文;支持人工調試和自動化評估;將生產行為轉化為數據集、規則、告警和迴歸測試。

沒有反饋的智能體可觀測性是不完整的。你可以檢查行為,但無法系統地從中學習。為了最大化智能體可觀測性的價值,請將反饋與你的追蹤一同存儲。這就是將智能體追蹤從日誌轉變為學習系統的關鍵。