当AI组成陪审团：医疗诊断的多模型共识革命

多模型共识：不只是”三个臭皮匠”

arXiv上的一项新研究（2604.14892）展示了一个令人振奋的发现：由三个顶尖大模型组成的”AI陪审团”，在高风险医疗错误识别任务上的评分一致性，超越了人类专家评审组。

这不是简单的”ensemble效果更好”的又一次验证。关键在于研究设计——它模拟了真实医疗场景中的专家会诊机制：每个模型独立评估，然后通过结构化讨论达成共识。这与医疗领域长期实践的多学科会诊（MDT）模式高度契合。

为什么这件事比表面看起来更重要

1. 打破了”单一模型崇拜”

过去一年，行业竞争焦点始终是”谁的基准分数更高”。但这项研究暗示了一条不同的路径：与其追求一个全知全能的超级模型，不如构建一个多模型协同的判断系统。这降低了我们对任何单一模型”完美性”的依赖，也间接缓解了对模型幻觉的焦虑——因为幻觉不太可能在三个独立模型中产生完全相同的错误。

2. 共识机制本身可能比模型能力更关键

研究中最有启发性的不是”三个模型比一个强”——这是意料之中的。真正值得注意的是共识机制的设计如何放大了模型优势。当模型之间存在分歧时，结构化的论证过程迫使每个模型重新审视自己的推理链，这个过程本身产生了质量提升。这让人联想到物理学中的”批判性讨论”传统——最好的科学结论往往来自同行的激烈辩论，而非某个天才的独断。

3. 对医疗AI落地的实践意义

目前医疗AI面临的最大障碍不是技术能力，而是信任。医生不信任一个黑箱模型的单一判断，监管机构也难以评估单一AI系统的可靠性。但”AI陪审团”模式提供了一个自然的信任框架：它不是用一个AI替代医生，而是用多个AI模拟专家组的决策过程。这种模式更容易被医疗体系接受。

冷静思考：这不是银弹

几个需要注意的局限：

成本问题：一次诊断调用三个模型，推理成本和延迟都是三倍。在急诊等时间敏感场景中，这可能不可接受。
分歧处理：当三个模型出现严重分歧且无法达成共识时，如何处理？研究没有充分讨论这个边界情况。
评估范围：研究聚焦于”错误识别”而非”正确诊断”，这是两个不同的问题。发现错误比做出正确诊断容易得多。
领域泛化：医疗之外，这种模式是否同样有效？法律、金融等领域的”陪审团”效果有待验证。

更大的图景：从”单体智能”到”社会智能”

这项研究折射出AI发展的一个深层趋势：我们正在从追求单体智能（一个超级大脑），转向构建社会智能（多个智能体的协作系统）。

Anthropic本周发布的”可信任Agent实践指南”、OpenAI Codex的多Agent并行架构、pi0.7机器人的组合泛化能力——这些看似不相关的进展，其实都在指向同一个方向。未来的AI系统可能更像一个组织，而非一个个体。

而”AI陪审团”在医疗领域的成功，可能只是这个趋势的一个缩影。

参考论文：arXiv:2604.14892

当AI组成陪审团：医疗诊断的多模型共识革命

April 19, 2026