2026-07-02 04:21 UTC+8站内改写2 分钟阅读更新: 2026-07-02 04:31 UTC+8

通过医疗AI视角解读智能体设计模式

作者通过阅读Anthropic的《构建有效AI智能体》指南，重新审视了常见的智能体工程模式，并将其应用于医疗健康领域。核心发现是：医疗AI的自主性应建立在可验证性之上——结构化数据（如FHIR）使任务可验证，从而允许更高自主性；而涉及临床判断的任务仍需人类参与。文章强调了简单优于复杂、透明优于抽象的原则，并指出评估（evals）是衡量“足够好”的关键。

来源Hacker News AI作者: adjks

作者在阅读Anthropic的《构建有效AI智能体》指南后，重新思考了智能体设计模式在医疗健康领域的应用。该指南简洁优雅，强调了简单优于复杂、透明优于抽象的核心原则。作者将LLM视为拥有工具、记忆和检索能力的初级开发者，需要在设计上保持克制，避免过度复杂化。

文章首先探讨了工作流模式的潜在应用：提示链可用于从语音生成临床文档或转化临床试验标准；路由模式可应用于医疗问答分流，将复杂或模糊的问题转交给人类。然而，作者发现后续模式似乎只是路由的变体，于是将焦点转向了可验证性这一关键问题。

Anthropic首席执行官Dario Amodei曾指出，编程之所以成为AI辅助的首个滩头阵地，是因为其可验证性。这促使作者重新审视FHIR（快速医疗互操作性资源）标准——标准化、结构化的JSON格式使其本身可验证，进而使某些医疗问题也变得可验证。

基于此，作者将问题重新定向：哪些医疗健康用例是实际可验证的？

并行化模式可将自由文本转换为FHIR资源，通过并行子调用验证生成JSON的结构、代码和编码值。编排器-工作者模式可聚合多源健康记录，由编排器协调各工作者拉取并标准化数据，最终合成一致的患者画像。

评估者-优化者模式被作者深入探讨。该模式最适合具有明确质量标准且LLM可自行提供反馈的场景。最清晰的例子是去标识化：生成器生成临床笔记的脱敏版本，评估器扫描残留的受保护健康信息（PHI），循环直至完全干净。临床编码也具有相同模式。但一旦反馈需要临床判断（如安全性），循环则必须开放给人类。这反映了医疗AI并非同质化高风险，而是存在一个光谱，评估者-优化者模式恰好适用于低风险、可自我验证的一端。

关于智能体模式，作者区分了两个极端：涉及临床决策的智能体绝不能脱离人类监督运行，因为动作空间开放，后果涉及健康安全；但数据协调智能体可完全自主，特别是在使用FHIR等标准化格式时。这比编排器-工作者更进一步，自主性体现在智能体自主决定获取什么数据、解决冲突并持续迭代，直到数据一致。关键在于输出仍是结构化且可检查的，因此自主性安全可控。

最终结论是：医疗AI的自主性并非固定模式清单，而是通过可验证性赢得的梯度。结构化的医疗数据（如FHIR、数据协调）是可验证的，可验证的部分可由智能体掌控；临床判断部分则保留给人类，并非因为智能体无法触及，而是因为我们尚未能充分衡量其可靠性。评估（evals）是回答“足够好”这一问题的关键，将在后续文章中深入探讨。