AI代理進入醫學:MIRA和AIME兩大模型能力擴展
兩篇Nature論文介紹了AI代理在醫療中的前瞻性應用:MIRA系統在急診科實現了端到端的患者管理,診斷準確率優於人類醫生;AIME系統在門診長期管理中表現出非劣效性甚至更優。儘管存在侷限性,但它們標誌着醫療AI從輔助向自主管理的轉變。
近日,兩篇發表在《自然》雜誌上的研究將自主AI代理(agentic AI)引入了醫療領域,標誌着人工智能從簡單的診斷支持向全面患者管理的跨越。這兩個系統分別名為MIRA(由德國Jacob Kather團隊開發)和AIME(由Google的Mike Schaekermann團隊開發),它們展示了AI在急診和門診場景中端到端處理醫療任務的能力。
MIRA系統嵌入在醫院電子健康記錄系統中,通過患者和AI醫生兩個代理進行交互。在500個真實急診病例中,MIRA能夠查詢病史、體格檢查結果,並自主決定實驗室檢查、影像學檢查、用藥、手術以及住院收治。結果顯示,MIRA的整體診斷準確率為87.8%,而由四位委員會認證醫生組成的對照組為78.1%。在特定疾病如胰腺炎(95.2% vs 78.6%)和闌尾炎(100% vs 88%)中優勢更為明顯。MIRA在治療方面同樣表現出色,正確選擇腹腔鏡闌尾切除術等手術的比例為53.5%,優於醫生的38.3%。此外,MIRA用藥99.8%符合適應症和安全要求,並減少了不必要的影像學檢查。
AIME系統則專注於門診患者的長期管理,採用對話代理(快速系統1思維)和管理代理(慢速系統2思維)的雙代理架構。該系統在100名患者的三次隨訪(每次間隔約2天)中,與21名初級保健醫生進行了對比。通過集成細化(Ensemble Refinement)技術,AIME能在約80秒內綜合四種治療方案形成共識。結果顯示,AIME在管理推理方面不劣於醫生,在第三次隨訪時,其管理計劃評分達98%(醫生81%),治療精確度95%(醫生67%),指南依從性100%(醫生86%)。AIME還開發了新的藥物管理基準RxQA,在藥物選擇、劑量、療程等方面均優於醫生。
然而,研究者也指出了明顯的侷限性。兩個系統均為純文本模型,無法處理非語言交流、影像學資料等真實醫療中的重要信息。測試數據來自“乾淨”的現有數據集,而真實醫療往往數據不完整且相互矛盾。MIRA的交互限於20輪對話,AIME使用患者演員而非真實患者。此外,MIRA只涉及8種病症,AIME僅覆蓋5個專科。
儘管存在這些侷限,研究仍然展示了AI在填補醫療空白方面的潛力。MIRA在診斷和治療方面的準確率提升令人印象深刻,且其不受經濟激勵影響的特性導致更合理的資源使用。AIME的長期記憶和高效性則優於當前美國醫療體系。值得注意的是,AI對指南的嚴格遵守雖然提高了一致性,但也可能削弱個體化的人文醫療。
作者Eric Topol指出,隨着大型語言模型的快速進步,未來可能會出現數百個專門化代理。這些研究標誌着在模擬環境下邁出了重要一步,但要證明臨牀價值,仍需進行隨機對照試驗,比較AI全程管理、人類醫生單獨管理以及兩者結合三種策略的效果。