當最聰明的AI還不夠聰明時,Benchling如何構建智慧體
Benchling,一家生命科學研發資料平臺,在2025年10月推出了Benchling AI,包含一個由智慧體支援的聊天介面。其AI主管Nicholas Larus-Stone與LangChain CEO Harrison Chase討論了構建科學工作智慧體的複雜性,包括使用多模型架構、生產追蹤審查以及可驗證科學任務的策略。
在最新一期的Max Agency播客中,Benchling的AI主管Nicholas Larus-Stone與LangChain聯合創始人兼CEO Harrison Chase展開對話,深入探討了在生命科學領域構建智慧體所面臨的獨特挑戰。Benchling是一家自2012年運營的研發資料平臺,為生命科學公司提供儲存和管理實驗、樣本、儀器和分析的服務。2025年10月,該公司推出了Benchling AI——一個由智慧體驅動的智慧層,透過聊天介面幫助科學家查詢資料、設計實驗和撰寫報告。
Larus-Stone透過其創立的分析初創公司Sphinx Bio的收購加入Benchling。他指出,與程式設計智慧體不同,科學工作流中的智慧體必須處理可驗證性較低的任務,因此他們採用了一些創新方法。
多模型架構
Benchling沒有在同一模型上多次執行,而是針對同一任務呼叫不同提供商的模型。不同模型家族會犯不同型別的錯誤,因此這種多模型方法提供了更強的質量指標。如果多個模型達成一致,則表明資料質量良好;如果存在分歧,通常意味著出現了錯誤。Larus-Stone表示:“每個模型都會犯略有不同的錯誤……能夠詢問不同的模型提供商,我們發現這能帶來更好的效能。”
生產追蹤審查
在科學研究領域,評估方法有其侷限性。Benchling採用結構化方法審查生產追蹤日誌。每週他們設有一位輪換的“消防隊長”,負責標記問題並在每週的技術運營會議上討論。對於外部訊號,他們關注使用者給出的“贊”和“踩”反饋。產品經理和工程師會檢視特定功能的追蹤記錄,瞭解使用者實際使用情況。
智慧體的實際影響
Larus-Stone指出,智慧體正在壓縮工作流程,減少獲得答案所需的實驗數量。透過消除步驟間的空閒時間,節省的一天常常能變成一週。此外,智慧體幫助科學家更嚴謹地設計實驗,從而減少達到結論所需的執行次數。
其他討論話題
對話還涉及Benchling為何在前期投入大量精力獲取乾淨資料、如何透過模型交叉檢查獲得更多價值、生產追蹤的重要性、AI目前在科學領域的實際應用與侷限,以及為何理解LLM更接近生物學而非軟體工程。Larus-Stone強調,科學智慧體的構建需要一種實驗性的方法,類似於科學發現本身的過程。
播客深入探討了可驗證與非可驗證任務的區別、在沒有乾淨基準時如何進行評估、上下文工程(SQL與基於檔案的框架)、智慧體建立和更新自身技能的記憶機制,以及為科學家提供的使用者教育。他們最後討論了智慧體何時能發現新的疾病療法,以及為什麼生物學領域的微調尚未超越前沿模型。