構建可靠的自主AI系統
本文介紹了拜耳與Thoughtworks合作開發的臨牀前信息中心(PRINCE)平台,該平台利用自主檢索增強生成(RAG)和Text-to-SQL技術,整合數十年安全研究報告,從關鍵字搜索演進為智能研究助手,能夠回答複雜問題並起草監管文件。文章通過上下文工程和駕馭工程的視角,探討了關鍵工程決策,重點突出信任、透明度和人機協作。
構建可靠的自主AI系統是一項複雜的工程挑戰,尤其是在製藥行業這樣數據密集且對準確性要求極高的領域。拜耳公司與Thoughtworks合作開發的臨牀前信息中心(PRINCE)平台,為這一挑戰提供了引人注目的解決方案。該平台最初是為了整合分散的臨牀前研究數據而設計的,這些數據通常存儲在多個孤立的系統中,包括結構化的研究元數據和數十年積累的非結構化PDF報告。
PRINCE的演進經歷了三個階段:搜索、詢問和執行。在搜索階段,平台通過統一的門户整合了數千份非臨牀研究報告,主要利用結構化元數據實現高級過濾功能。研究者可以通過關鍵字和元數據篩選,快速定位相關報告,但面對複雜問題時仍顯不足。隨着生成式AI尤其是檢索增強生成(RAG)技術的出現,PRINCE進入了詢問階段,允許研究者以自然語言提問,直接從非結構化數據中獲取洞察。通過將向量化的報告存儲在OpenSearch中,系統能夠檢索最相關的信息,並結合LLM生成上下文豐富的答案。當前執行階段,PRINCE通過集成多代理系統,成為一個主動的研究助手,能夠處理複雜查詢、編排工作流程,甚至支持起草監管文件。
系統的核心架構基於LangGraph和FastAPI,利用上下文工程和駕馭工程來設計信息流動和模型管理。上下文工程決定了每個模型接收什麼信息、排除什麼信息,以及信息如何在研究、反思和寫作等專門步驟之間傳遞。例如,研究者代理負責從數據庫和向量存儲中檢索數據,反思代理驗證數據的完整性和準確性,寫作者代理則綜合所有信息生成最終答案。駕馭工程則構建了圍繞模型的框架,包括編排、工具邊界、狀態持久化、重試、回退、驗證、反思循環、可觀測性和人工審核。每個步驟的狀態通過LangGraph檢查點持久化到PostgreSQL,確保故障恢復時能夠從斷點繼續。
為了確保可靠性,系統設計了多層彈性機制。如果特定LLM失敗,系統會自動重試請求,並在多次嘗試後回退到備用模型或平台。重試在單個LLM調用和邏輯節點級別都實現了,以便快速從臨時故障中恢復。此外,代理會收到錯誤上下文,以便調整計劃或採取替代方案。例如,如果檢索步驟失敗,代理可以嘗試不同的查詢策略或數據源。
信任是系統設計的核心原則。PRINCE通過透明度、可解釋性和人機循環集成來建立信任。系統會向用户展示信息來源和推理過程,包括檢索了哪些文檔、模型的思考鏈以及答案如何生成。在關鍵決策點,如起草監管文件前,系統會引入人工審核,確保輸出符合規範。評估和監控方面,系統採用RAGAS評估框架進行日常交通評估,並利用Langfuse進行詳細跟蹤和調試。評估指標包括答案的相關性、準確性和完整性,每天自動運行,以便及時發現和糾正問題。
PRINCE平台展示了AI在製藥行業的變革潛力,顯著提升了數據可訪問性和研究效率,同時確保治理和合規性。通過從搜索到詢問再到執行的演進,PRINCE為臨牀前研究提供了強大的工具,加速了數據驅動決策,減少了不必要的實驗,最終有望加速更安全、更有效療法的開發。拜耳的經驗表明,通過精心的工程設計和迭代改進,自主AI系統可以在高風險領域實現可靠和可信的部署。