AI News HubLIVE
站内改写

智慧體可觀測性需要反饋以驅動學習

本文由LangChain創始人Harrison Chase撰寫,闡述了智慧體可觀測性的核心價值不僅是除錯,而是驅動學習迴圈。他強調,僅靠追蹤是不夠的,必須結合反饋訊號(使用者反饋、間接訊號、大模型評判、規則等)才能系統地改進模型、框架和上下文。文章詳細探討了學習發生的多個層面(模型、框架、上下文),以及如何透過追蹤與反饋結合實現人工或自動化的持續改進。最後,他指出一個完善的可觀測性平臺應具備儲存追蹤、儲存反饋和生成反饋三大能力。

文章情報

工程師中級

要點

  • 智慧體可觀測性的核心是驅動學習,而不僅僅是除錯。
  • 反饋訊號(使用者、間接、LLM評判、規則)將追蹤從被動記錄轉化為訓練訊號。
  • 學習可在模型、框架、上下文三個層面發生,均依賴追蹤與反饋。
  • 可觀測性平臺需要儲存追蹤、儲存反饋並自動生成反饋。

為什麼重要

這條新聞值得關注,因為智慧體可觀測性的核心是驅動學習,而不僅僅是除錯。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

大多數團隊最初將智慧體可觀測性視為除錯工具。當出現問題時,開發者開啟追蹤鏈,檢查每一步,找出智慧體在哪一步做出了錯誤決策。這種用法確實有用,但視野過於狹窄。

可觀測性的更深層角色是驅動學習。然而,僅靠追蹤本身無法形成這一迴圈。還需要反饋——即那些能夠告訴你智慧體行為是否有用、被接受、被拒絕、低效、存在風險或出錯的訊號。這種學習不限於模型訓練意義上的學習,而是貫穿整個智慧體系統:模型應該做什麼、框架應如何引導模型、需要哪些上下文、哪些故障模式反覆出現、哪些行為真正對使用者有效。

追蹤不僅僅是事件記錄,反饋也不僅僅是最後給出的評分。二者結合,構成了系統改進的原始素材。

學習可以發生在多個層面。模型層面:你可能發現模型在特定示例中持續錯誤分類請求、選錯工具或未能遵守策略。這些追蹤可用於透過監督微調或強化學習來更新模型權重。框架層面:框架是模型周圍的一切,包括提示詞、工具架構、許可權檢查、控制流、記憶更新邏輯、路由、重試和護欄。追蹤可能顯示,模型能力本身沒問題,但腳手架錯了——比如工具描述模糊、缺少讀前寫後約束、系統提示詞做出了錯誤權衡。上下文層面:智慧體對提供的資訊極其敏感,包括檢索文件、記憶、使用者偏好、工具結果、先前輪次和環境狀態。追蹤可以揭示,模型在接收到錯誤或缺失上下文的情況下做出了合理決策。這種情況下的學習迴圈應改進上下文的檢索、儲存、壓縮或丟棄。這裡通常被稱為記憶。

關鍵點在於,所有這些學習迴圈都由追蹤驅動。如果不知道智慧體看到了什麼、做了什麼、以及隨後發生了什麼,就無法可靠地知道該改進什麼。這就是為什麼智慧體可觀測性驅動智慧體評估——追蹤讓智慧體行為變得可見。

學習可以是人工驅動或自動化的。人工驅動:開發者檢視追蹤,發現智慧體呼叫了錯誤工具,然後更新提示詞或工具架構。產品經理檢視一組失敗對話,意識到產品需要新工作流。標註員標記追蹤,以便團隊構建更好的評估資料集。這仍然是學習,只是有人類在其中。自動化:系統可取樣生產追蹤,執行線上評估,檢測已知故障模式,將示例新增到資料集,或在發現異常時觸發審查佇列。智慧體本身不需要自動改進,自動化只需識別哪些追蹤值得關注,並將其轉化為結構化反饋。

對於單個低流量智慧體,手動審查可能足夠。但對於大量智慧體或高流量生產環境,這就變成了基礎設施問題:需要捕獲追蹤、過濾、評分、路由,並保留重要的那些。

追蹤是必要的,但並不充分。追蹤告訴你發生了什麼,但本身並不告訴你發生的事是好是壞。這個區別很重要:智慧體可能在40步內完成一項任務,但同樣的任務本應只需6步;它可能給出自信的最終答案,但使用者可能拒絕了它;它可能避免了報錯,但仍然未能滿足使用者意圖;它可能呼叫了正確的工具,但引數有微妙錯誤。

要從追蹤中學習,需要將反饋附加到追蹤上。反饋將可觀測性從被動記錄轉變為訓練訊號、除錯訊號、產品訊號或評估訊號。沒有反饋,你只有一大堆軌跡;有了反饋,你就可以開始提出有用的問題:哪些軌跡代表成功?哪些代表失敗?失敗是由模型、框架還是上下文引起的?哪些失敗值得轉化為評估?哪些行為在隨時間改善?

核心要求是:將反饋與智慧體可觀測性資料一起儲存。

反饋可以來自多種渠道。最明顯的是直接使用者反饋:點贊、踩、星級評分或文字糾正。這種訊號易於理解,但通常稀疏,大多數使用者不會留下顯式反饋。其次是間接使用者反饋:對於編碼智慧體,可能是接受的行數、還原的差異、編輯後透過的測試,或者使用者是否保留了生成的更改;對於支援智慧體,可能是使用者是否重新開啟了工單;對於研究智慧體,可能是使用者是否複製了答案或再次提出相同問題。這些訊號比顯式評分更嘈雜,但往往更豐富。你還可以使用大模型作為評判生成反饋:評判器可以評估答案是否有幫助、智慧體是否遵守策略、軌跡是否可疑。這可以在規模上執行,尤其適合在線上評估中處理生產追蹤。雖然不是完美,需要校準,但它為團隊提供了一種在人類審查太慢時建立結構化反饋的方式。最後,反饋可以是確定性的:規則和正規表示式常被低估。如果已知某種故障模式,就將其編碼;如果智慧體未經批准不應呼叫破壞性命令,就檢查它;如果響應應包含引用,就驗證它;如果編碼智慧體顯示使用者挫敗跡象,就檢測它。

Claude Code的洩露事件使這一點具體化。多篇報道發現,Claude Code使用正規表示式在userPromptKeywords.ts中檢測使用者提示中的挫敗詞彙和短語。PCWorld報道該正規表示式查詢“wtf”“horrible”“awful”“this sucks”等詞。從工程角度看,這一模式具有啟發性:並非每個反饋訊號都需要模型呼叫。如果一條廉價規則就能捕獲有用訊號,就使用它——並清楚說明該訊號如何儲存和使用。

綜上所述,可觀測性平臺需要具備三項核心能力。第一,儲存追蹤:這是基礎層,需要完整的智慧體行為軌跡,包括模型呼叫、工具呼叫、輸入輸出、後設資料、計時、錯誤和中間狀態。理想情況下,能相容各種框架,而不限於某一個。LangSmith支援來自30多個框架的追蹤,並能透過OpenTelemetry整合。第二,儲存反饋:反饋不應孤立於追蹤之外的電子表格或分析系統。它應直接附加到所評估的執行、追蹤或執行緒上,從而允許按反饋過濾、比較好壞軌跡、從真實失敗構建資料集、跟蹤更改是否改善了重要行為。LangSmith支援捕獲反饋並將其與追蹤關聯。第三,生成反饋:部分反饋來自使用者,但更多有用反饋應由系統自身產生,包括規則、評估器、取樣、標註佇列、告警以及對歷史追蹤的回填。LangSmith支援自動化規則和線上評估,包括在生產追蹤上執行的大模型評判。

這就是智慧體團隊需要的產品形態:儲存追蹤、儲存反饋、生成反饋。學習迴圈依賴於追蹤加反饋。可觀測性的目的不僅是檢視追蹤,而是從中學習。追蹤告訴你發生了什麼,反饋告訴你它的含義。兩者結合,讓你能改進模型、框架和上下文;支援人工除錯和自動化評估;將生產行為轉化為資料集、規則、告警和迴歸測試。

沒有反饋的智慧體可觀測性是不完整的。你可以檢查行為,但無法系統地從中學習。為了最大化智慧體可觀測性的價值,請將反饋與你的追蹤一同儲存。這就是將智慧體追蹤從日誌轉變為學習系統的關鍵。