AI代理进入医学:MIRA和AIME两大模型能力扩展
两篇Nature论文介绍了AI代理在医疗中的前瞻性应用:MIRA系统在急诊科实现了端到端的患者管理,诊断准确率优于人类医生;AIME系统在门诊长期管理中表现出非劣效性甚至更优。尽管存在局限性,但它们标志着医疗AI从辅助向自主管理的转变。
近日,两篇发表在《自然》杂志上的研究将自主AI代理(agentic AI)引入了医疗领域,标志着人工智能从简单的诊断支持向全面患者管理的跨越。这两个系统分别名为MIRA(由德国Jacob Kather团队开发)和AIME(由Google的Mike Schaekermann团队开发),它们展示了AI在急诊和门诊场景中端到端处理医疗任务的能力。
MIRA系统嵌入在医院电子健康记录系统中,通过患者和AI医生两个代理进行交互。在500个真实急诊病例中,MIRA能够查询病史、体格检查结果,并自主决定实验室检查、影像学检查、用药、手术以及住院收治。结果显示,MIRA的整体诊断准确率为87.8%,而由四位委员会认证医生组成的对照组为78.1%。在特定疾病如胰腺炎(95.2% vs 78.6%)和阑尾炎(100% vs 88%)中优势更为明显。MIRA在治疗方面同样表现出色,正确选择腹腔镜阑尾切除术等手术的比例为53.5%,优于医生的38.3%。此外,MIRA用药99.8%符合适应症和安全要求,并减少了不必要的影像学检查。
AIME系统则专注于门诊患者的长期管理,采用对话代理(快速系统1思维)和管理代理(慢速系统2思维)的双代理架构。该系统在100名患者的三次随访(每次间隔约2天)中,与21名初级保健医生进行了对比。通过集成细化(Ensemble Refinement)技术,AIME能在约80秒内综合四种治疗方案形成共识。结果显示,AIME在管理推理方面不劣于医生,在第三次随访时,其管理计划评分达98%(医生81%),治疗精确度95%(医生67%),指南依从性100%(医生86%)。AIME还开发了新的药物管理基准RxQA,在药物选择、剂量、疗程等方面均优于医生。
然而,研究者也指出了明显的局限性。两个系统均为纯文本模型,无法处理非语言交流、影像学资料等真实医疗中的重要信息。测试数据来自“干净”的现有数据集,而真实医疗往往数据不完整且相互矛盾。MIRA的交互限于20轮对话,AIME使用患者演员而非真实患者。此外,MIRA只涉及8种病症,AIME仅覆盖5个专科。
尽管存在这些局限,研究仍然展示了AI在填补医疗空白方面的潜力。MIRA在诊断和治疗方面的准确率提升令人印象深刻,且其不受经济激励影响的特性导致更合理的资源使用。AIME的长期记忆和高效性则优于当前美国医疗体系。值得注意的是,AI对指南的严格遵守虽然提高了一致性,但也可能削弱个体化的人文医疗。
作者Eric Topol指出,随着大型语言模型的快速进步,未来可能会出现数百个专门化代理。这些研究标志着在模拟环境下迈出了重要一步,但要证明临床价值,仍需进行随机对照试验,比较AI全程管理、人类医生单独管理以及两者结合三种策略的效果。