當最聰明的AI還不夠聰明時,Benchling如何構建智能體
Benchling,一家生命科學研發數據平台,在2025年10月推出了Benchling AI,包含一個由智能體支持的聊天界面。其AI主管Nicholas Larus-Stone與LangChain CEO Harrison Chase討論了構建科學工作智能體的複雜性,包括使用多模型架構、生產追蹤審查以及可驗證科學任務的策略。
在最新一期的Max Agency播客中,Benchling的AI主管Nicholas Larus-Stone與LangChain聯合創始人兼CEO Harrison Chase展開對話,深入探討了在生命科學領域構建智能體所面臨的獨特挑戰。Benchling是一家自2012年運營的研發數據平台,為生命科學公司提供存儲和管理實驗、樣本、儀器和分析的服務。2025年10月,該公司推出了Benchling AI——一個由智能體驅動的智能層,通過聊天界面幫助科學家查找數據、設計實驗和撰寫報告。
Larus-Stone通過其創立的分析初創公司Sphinx Bio的收購加入Benchling。他指出,與編程智能體不同,科學工作流中的智能體必須處理可驗證性較低的任務,因此他們採用了一些創新方法。
多模型架構
Benchling沒有在同一模型上多次運行,而是針對同一任務調用不同提供商的模型。不同模型家族會犯不同類型的錯誤,因此這種多模型方法提供了更強的質量指標。如果多個模型達成一致,則表明數據質量良好;如果存在分歧,通常意味着出現了錯誤。Larus-Stone表示:“每個模型都會犯略有不同的錯誤……能夠詢問不同的模型提供商,我們發現這能帶來更好的性能。”
生產追蹤審查
在科學研究領域,評估方法有其侷限性。Benchling採用結構化方法審查生產追蹤日誌。每週他們設有一位輪換的“消防隊長”,負責標記問題並在每週的技術運營會議上討論。對於外部信號,他們關注用户給出的“贊”和“踩”反饋。產品經理和工程師會查看特定功能的追蹤記錄,瞭解用户實際使用情況。
智能體的實際影響
Larus-Stone指出,智能體正在壓縮工作流程,減少獲得答案所需的實驗數量。通過消除步驟間的空閒時間,節省的一天常常能變成一週。此外,智能體幫助科學家更嚴謹地設計實驗,從而減少達到結論所需的運行次數。
其他討論話題
對話還涉及Benchling為何在前期投入大量精力獲取乾淨數據、如何通過模型交叉檢查獲得更多價值、生產追蹤的重要性、AI目前在科學領域的實際應用與侷限,以及為何理解LLM更接近生物學而非軟件工程。Larus-Stone強調,科學智能體的構建需要一種實驗性的方法,類似於科學發現本身的過程。
播客深入探討了可驗證與非可驗證任務的區別、在沒有乾淨基準時如何進行評估、上下文工程(SQL與基於文件的框架)、智能體創建和更新自身技能的記憶機制,以及為科學家提供的用户教育。他們最後討論了智能體何時能發現新的疾病療法,以及為什麼生物學領域的微調尚未超越前沿模型。