AI News HubLIVE
站内改写2 分鐘閱讀

提升記憶檢索:New Computer如何透過LangSmith實現50%更高召回率

New Computer利用LangSmith改進其AI記憶檢索系統,實現了50%更高的召回率和40%更高的精確度,透過追蹤迴歸和調整對話提示來最佳化效能。

New Computer是Dot的幕後團隊,Dot是第一款旨在真正理解使用者的個人AI。Dot的長時記憶系統透過觀察語言和行為線索,隨時間學習使用者的偏好。其記憶系統不僅僅進行檢索,還不斷更新對使用者的認知,以提供及時且個性化的幫助,營造出真正理解的感覺。

藉助LangSmith,New Computer能夠測試和改進其記憶檢索系統,相較於之前的動態記憶檢索基線實現,召回率提高了50%,精確度提高了40%。

Dot的智慧記憶系統簡介

New Computer團隊構建了首個創新的智慧記憶系統。與依賴靜態文件集的標準RAG方法不同,智慧記憶涉及動態建立或預計算稍後才會被檢索的文件。這意味著在記憶建立時就必須結構化資訊,以便後續檢索,並且隨著記憶的積累,確保檢索的準確性和高效性。

除了原始內容,Dot的記憶還擁有一組可選的“元欄位”,對檢索非常有用。這些欄位包括狀態(如已完成或進行中)以及日期時間欄位(如開始或截止日期)。它們可以作為高頻查詢的額外過濾方法,例如“這周我想完成哪些任務?”或“今天還有什麼要完成的?”

使用LangSmith改進記憶檢索

由於採用了多種檢索方法(語義、關鍵詞、BM25、元欄位過濾技術中的一種或多種),New Computer需要一種新方式來快速迭代標註樣本資料集。為了在保護使用者隱私的同時測試效能,他們透過LLM生成背景故事建立了一組合成使用者。在與每個合成使用者進行初始對話以填充記憶資料庫後,團隊開始將查詢(合成使用者的訊息)以及所有可用記憶儲存在LangSmith資料集中。

透過使用連線LangSmith的內部工具,New Computer團隊為每個查詢標註了相關記憶,並定義了精確度、召回率和F1等評估指標,從而能夠快速迭代改進智慧記憶系統的檢索能力。

在這組實驗中,他們從一個簡單的基線系統開始,使用語義搜尋為每個查詢檢索固定數量的最相關記憶。然後測試其他技術以評估不同查詢型別的效能。在某些情況下,相似性搜尋或關鍵詞方法(如BM25)效果更好;在其他情況下,這些方法需要先透過元欄位進行預過濾才能有效執行。

正如可以想象的那樣,並行執行這些多種方法可能導致實驗的組合爆炸——因此,在多樣化資料集上快速驗證不同方法對取得進展至關重要。LangSmith易用的SDK和實驗介面使New Computer能夠快速高效地執行、評估和檢查實驗結果。

這些實驗使New Computer能夠顯著改進其記憶系統,與之前的動態記憶檢索基線相比,召回率提高了50%,精確度提高了40%。

使用LangSmith調整對話提示

Dot的回應由動態對話提示生成——這意味著除了包含相關記憶外,系統還可能依賴工具使用(如搜尋結果)和高度上下文化的行為指令,以準確自然的方式回應。

開發這樣一個高度可變的系統可能具有挑戰性,因為改進一個查詢的變化可能對其他查詢產生不利影響。

為了最佳化提示,New Computer團隊再次使用一組合成使用者生成涵蓋廣泛意圖的使用者查詢。然後,他們能夠在LangSmith的實驗比較檢視中輕鬆檢查提示變化的全域性效果,以高度視覺化的方式識別由提示變化導致的迴歸執行。

此外,在輸出不準確的失敗案例中,團隊可以直接在LangSmith UI中使用內建的提示遊樂場調整提示,而無需離開介面。這大大提高了團隊在評估和調整對話提示時的迭代速度。

New Computer的未來

隨著New Computer推動深化人機關係,團隊不斷尋求讓使用者感到真正被感知和理解的方法。這包括使Dot能夠適應使用者的對話或語調偏好,或透過主動向使用者傳送定製訊息,成為完全個性化的助手。

他們最近的釋出吸引了新一波使用者——其中超過45%的使用者在達到免費訊息限制後轉換為應用的付費層級——這些使用者期望Dot隨著時間的推移與他們一起成長和發展。New Computer與LangChain團隊的合作以及LangSmith的使用,將繼續在團隊利用新型AI材料模擬與人類使用者日益複雜的關係方面發揮關鍵作用。