2026-06-11站内改写2 分鐘閱讀更新: 2026-06-12

當最聰明的AI還不夠聰明時，Benchling如何構建智能體

Benchling，一家生命科學研發數據平台，在2025年10月推出了Benchling AI，包含一個由智能體支持的聊天界面。其AI主管Nicholas Larus-Stone與LangChain CEO Harrison Chase討論了構建科學工作智能體的複雜性，包括使用多模型架構、生產追蹤審查以及可驗證科學任務的策略。

來源LangChain Blog

在最新一期的Max Agency播客中，Benchling的AI主管Nicholas Larus-Stone與LangChain聯合創始人兼CEO Harrison Chase展開對話，深入探討了在生命科學領域構建智能體所面臨的獨特挑戰。Benchling是一家自2012年運營的研發數據平台，為生命科學公司提供存儲和管理實驗、樣本、儀器和分析的服務。2025年10月，該公司推出了Benchling AI——一個由智能體驅動的智能層，通過聊天界面幫助科學家查找數據、設計實驗和撰寫報告。

Larus-Stone通過其創立的分析初創公司Sphinx Bio的收購加入Benchling。他指出，與編程智能體不同，科學工作流中的智能體必須處理可驗證性較低的任務，因此他們採用了一些創新方法。

多模型架構

Benchling沒有在同一模型上多次運行，而是針對同一任務調用不同提供商的模型。不同模型家族會犯不同類型的錯誤，因此這種多模型方法提供了更強的質量指標。如果多個模型達成一致，則表明數據質量良好；如果存在分歧，通常意味着出現了錯誤。Larus-Stone表示：“每個模型都會犯略有不同的錯誤……能夠詢問不同的模型提供商，我們發現這能帶來更好的性能。”

生產追蹤審查

在科學研究領域，評估方法有其侷限性。Benchling採用結構化方法審查生產追蹤日誌。每週他們設有一位輪換的“消防隊長”，負責標記問題並在每週的技術運營會議上討論。對於外部信號，他們關注用户給出的“贊”和“踩”反饋。產品經理和工程師會查看特定功能的追蹤記錄，瞭解用户實際使用情況。

智能體的實際影響

Larus-Stone指出，智能體正在壓縮工作流程，減少獲得答案所需的實驗數量。通過消除步驟間的空閒時間，節省的一天常常能變成一週。此外，智能體幫助科學家更嚴謹地設計實驗，從而減少達到結論所需的運行次數。

其他討論話題

對話還涉及Benchling為何在前期投入大量精力獲取乾淨數據、如何通過模型交叉檢查獲得更多價值、生產追蹤的重要性、AI目前在科學領域的實際應用與侷限，以及為何理解LLM更接近生物學而非軟件工程。Larus-Stone強調，科學智能體的構建需要一種實驗性的方法，類似於科學發現本身的過程。

播客深入探討了可驗證與非可驗證任務的區別、在沒有乾淨基準時如何進行評估、上下文工程（SQL與基於文件的框架）、智能體創建和更新自身技能的記憶機制，以及為科學家提供的用户教育。他們最後討論了智能體何時能發現新的疾病療法，以及為什麼生物學領域的微調尚未超越前沿模型。