微软推出 MAI Diagnostic Orchestrator,迈向医疗超级智能的一步
July 2, 2024
微软近日发布了突破性的 AI 系统——MAI Diagnostic Orchestrator(MAI‑DxO),在医学上最具挑战性的疑难病例中,其诊断准确率达到经验丰富医生的四倍。这标志着微软所称“医疗超级智能”取得了重大进展。
什么是 MAI‑DxO
MAI‑DxO 是一款模拟虚拟医疗团队的 AI 协同框架,由多个具备专业分工的 AI 代理组成,分别负责假设生成、检验选择、成本监控与最终诊断。这些代理展开辩论、不断完善并协作模拟临床推理过程。
主要特色
- 链式辩论推理:各代理相互挑战和完善输出结果。
- 模型无关框架:兼容 OpenAI o3、Claude、Gemini、Grok、Llama 和 DeepSeek 等模型。
- 成本感知决策:避免不必要的检查,提高效率。
评估方法
微软构建了Sequential Diagnosis Benchmark(SDBench),是一个来自《新英格兰医学杂志》的304 例高度复杂临床病例测试集,旨在模拟真实世界的诊断挑战。
评估流程包括:
- 代理反复提问、安排检查、完善诊断。
- 模拟检验成本以评估经济效率。
与医生对比
指标 | MAI‑DxO + OpenAI o3 | 人类医生(5–20年经验) |
---|---|---|
诊断准确率 | 85.5% | 20% |
单例平均成本 | $2,397 | $2,963 |
MAI‑DxO 在准确率上远超有经验的医生,同时还将成本降低了约20%。
重要意义
- 准确与高效: MAI‑DxO 针对医疗领域简单病例过度治疗与复杂病例漏诊的“双重悖论”给出了解决思路。
- 知识普惠: 为资源有限地区带来专家级决策支持。
- 透明可溯: 推理过程可审计、可解释。
面临的挑战
- 临床验证: 仍需在现实世界由医生利用所有可用工具并协同工作的情景下展开试验。
- 监管审批: 在临床部署前,需解决安全性、偏见和隐私等问题。
接下来的计划
- 微软计划将 MAI‑DxO 集成进 Bing 和 Copilot,这两个平台已处理数以百万计的健康查询。
- 与医院(如 Beth Israel Deaconess)的合作将推动 MAI‑DxO 融入临床工作流程。
- 研究人员认为,未来5至10年内有望实现几乎零误诊的诊断。
最后的思考
MAI‑DxO 标志着 AI 系统向医学专家级推理能力的重要迈进。在复杂基准测试中的成功,凸显了多智能体 AI 系统对诊断领域的变革潜力——但大规模临床应用前仍有大量工作要做。