2026-04-30站内改写

透過評估驅動開發迭代實現LLM可靠性

Dosu公司採用評估驅動開發（EDD）和LangSmith來構建可靠的LLM產品，監控生產效能，並自信地進行迭代。本文詳細介紹了Dosu的起源、早期挑戰、如何實施EDD以及利用LangSmith大規模監控和改進產品。

文章情報

工程師中級

要點

Dosu使用評估驅動開發（EDD）來確保LLM產品的可靠性，類似於測試驅動開發。
LangSmith的SDK易於整合，提供了細粒度的控制和可定製性，幫助Dosu監控所有活動。
透過LangSmith的搜尋功能，Dosu能夠識別故障模式並持續改進。

為什麼重要

這條新聞值得關注，因為Dosu使用評估驅動開發（EDD）來確保LLM產品的可靠性，類似於測試驅動開發。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

在構建生產級LLM產品時，可靠性是一個關鍵挑戰。由於LLM基於機率函式，確保其可靠性並不簡單。Dosu公司透過評估驅動開發（EDD）和LangSmith工具，成功實現了這一目標。

Dosu是一個AI工程助手，幫助開發、維護和支援軟體專案。它起源於作者作為開源軟體維護者的經歷，其中大量時間用於支援工作而非開發新功能。Dosu旨在承擔這些非編碼任務，讓開發者專注於編碼和功能交付。

在早期，Dosu團隊手動檢查每個響應，使用grep和print語句來識別改進點。隨著使用量增長，這種方法變得不可持續。因此，他們採用了EDD方法，透過定義評估（evals）作為基準，確保每次變更不會導致效能退化。

為了應對規模增長，Dosu升級了監控棧，選擇了LangSmith。LangSmith的SDK允許他們透過簡單的裝飾器（@traceable）快速整合，實現全量跟蹤。LangSmith提供了高階搜尋功能，幫助他們識別故障模式，如使用者反饋、情感分析、內部錯誤和響應時間異常。

透過LangSmith，Dosu能夠自動構建評估資料集，將生產流量中的失敗案例新增到評估中，然後針對這些評估進行迭代改進。這種工作流程形成了良性迴圈：LangSmith幫助Dosu改進，Dosu的改進又減輕了LangChain團隊的維護負擔。

未來，Dosu計劃進一步定製LangSmith，實現評估資料集的自動收集，使工程師能夠輕鬆基於對話主題、使用者段等篩選資料。此外，Dosu已經識別出一些意想不到的故障模式，例如當使用者分享數千行日誌或OpenAI嵌入的原始浮點值時，響應極其緩慢；還有一次Dosu被要求標記拉取請求，卻回應了關於音樂會的訊息。這些案例都被納入評估集，驅動持續改進。Dosu與LangChain的合作形成了有趣的飛輪效應：LangSmith加速Dosu迭代，Dosu的改進降低LangChain的維護成本，使LangChain能投入更多資源到LangSmith開發，進而反哺Dosu。

EDD流程包括：建立新行為並附加初始評估，向使用者釋出，監控生產結果並識別失敗模式，將失敗示例加入離線評估集，針對更新後的評估迭代，然後重新發布並重復。這一方法論確保了Dosu在大規模部署下仍能保持高質量。目前Dosu已安裝在數千個倉庫中，每天全天候生成響應，具備數十個子模組智慧處理不同場景。

LangSmith的整合極為簡便，僅需在函式上新增@traceable裝飾器即可實現程式碼級跟蹤，將函式輸入、渲染的提示模板和LLM輸出整合在單個跟蹤中。其高階搜尋支援按使用者反饋、錯誤事件、響應延遲、負面情緒等條件篩選，幫助Dosu團隊快速定位異常行為。Dosu正致力於進一步自定義LangSmith，以自動從生產流量中構建評估資料集，使工程師能基於對話主題、使用者細分、請求類別等輕鬆整理資料。