2026-06-11站内改写2 分鐘閱讀更新: 2026-06-12

當最聰明的AI還不夠聰明時，Benchling如何構建智慧體

Benchling，一家生命科學研發資料平臺，在2025年10月推出了Benchling AI，包含一個由智慧體支援的聊天介面。其AI主管Nicholas Larus-Stone與LangChain CEO Harrison Chase討論了構建科學工作智慧體的複雜性，包括使用多模型架構、生產追蹤審查以及可驗證科學任務的策略。

來源LangChain Blog

在最新一期的Max Agency播客中，Benchling的AI主管Nicholas Larus-Stone與LangChain聯合創始人兼CEO Harrison Chase展開對話，深入探討了在生命科學領域構建智慧體所面臨的獨特挑戰。Benchling是一家自2012年運營的研發資料平臺，為生命科學公司提供儲存和管理實驗、樣本、儀器和分析的服務。2025年10月，該公司推出了Benchling AI——一個由智慧體驅動的智慧層，透過聊天介面幫助科學家查詢資料、設計實驗和撰寫報告。

Larus-Stone透過其創立的分析初創公司Sphinx Bio的收購加入Benchling。他指出，與程式設計智慧體不同，科學工作流中的智慧體必須處理可驗證性較低的任務，因此他們採用了一些創新方法。

多模型架構

Benchling沒有在同一模型上多次執行，而是針對同一任務呼叫不同提供商的模型。不同模型家族會犯不同型別的錯誤，因此這種多模型方法提供了更強的質量指標。如果多個模型達成一致，則表明資料質量良好；如果存在分歧，通常意味著出現了錯誤。Larus-Stone表示：“每個模型都會犯略有不同的錯誤……能夠詢問不同的模型提供商，我們發現這能帶來更好的效能。”

生產追蹤審查

在科學研究領域，評估方法有其侷限性。Benchling採用結構化方法審查生產追蹤日誌。每週他們設有一位輪換的“消防隊長”，負責標記問題並在每週的技術運營會議上討論。對於外部訊號，他們關注使用者給出的“贊”和“踩”反饋。產品經理和工程師會檢視特定功能的追蹤記錄，瞭解使用者實際使用情況。

智慧體的實際影響

Larus-Stone指出，智慧體正在壓縮工作流程，減少獲得答案所需的實驗數量。透過消除步驟間的空閒時間，節省的一天常常能變成一週。此外，智慧體幫助科學家更嚴謹地設計實驗，從而減少達到結論所需的執行次數。

其他討論話題

對話還涉及Benchling為何在前期投入大量精力獲取乾淨資料、如何透過模型交叉檢查獲得更多價值、生產追蹤的重要性、AI目前在科學領域的實際應用與侷限，以及為何理解LLM更接近生物學而非軟體工程。Larus-Stone強調，科學智慧體的構建需要一種實驗性的方法，類似於科學發現本身的過程。

播客深入探討了可驗證與非可驗證任務的區別、在沒有乾淨基準時如何進行評估、上下文工程（SQL與基於檔案的框架）、智慧體建立和更新自身技能的記憶機制，以及為科學家提供的使用者教育。他們最後討論了智慧體何時能發現新的疾病療法，以及為什麼生物學領域的微調尚未超越前沿模型。