mcc医疗怎么玩龙尔平／万沛星团队发布大模型“圆桌会议”框架MCC，大幅提升医疗推理能力

医学

Medicine

2026年1月5日，中国医学科学院基础医学研究所龙尔平团队和北京大学基础医学院万沛星团队在Cell Press细胞出版社期刊Cell Reports Medicine合作发表了一篇论文，题为“Model confrontation and collaboration: a debate intelligence framework for enhancing medical reasoning in large language models”。该研究提出“模型对抗与协作”（MCC）框架，推动医疗AI从“单点智能”迈向“协同推理”的范式跃迁，通过构建可辩论、可追溯、动态协作的模型圆桌，促进了医疗AI向可靠、可解释、可协作的下一代形态演进。

在医学人工智能快速发展的当下，GPT-4、Med-PaLM2等大型语言模型在医学问答与考试中不断刷新纪录，展现出接近人类的认知能力。然而，单一模型固有的“黑箱”局限、缺乏多视角校验的推理机制，已成为其在真实、高风险临床场景中安全落地的关键瓶颈。如何让AI像多学科专家会诊一样，实现交叉质证、协同决策，是医疗AI走向可信、可靠必须跨越的科学鸿沟。

研究团队提出“模型对抗与协作”(Model Confrontation and Collaboration, MCC) 框架，将不同的大型语言模型组合成一个动态的、具备“推理—行动—反思”的圆桌式智囊团。MCC引入共享的“上下文工作区”：将问题、已生成的候选答案、关键证据点与各模型的立场变化以结构化方式写入同一上下文记忆，并在每一轮辩论中保持对完整对话历史的可见性，从而确保批判与修正始终基于同一事实与语境。其核心流程可概括为：第一步，独立推理：GPT-o1、Qwen-QwQ、DeepSeek-R1在同一问题上并行生成答案与关键论证点；随后引入分歧门控：系统/主持LLM对候选答案进行一致性检测，仅在出现分歧时激活辩论，从源头控制额外计算开销；第二步，对抗辩论：进入多轮消息传递，每轮中模型执行“质疑—举证—反驳—修正”四类动作，围绕共享上下文中的证据缺口与推理断点开展交叉验证：定位论证中的跳步、证据不足或概念混淆，进一步补充指南、机制与鉴别诊断依据；随后进行自我反思，审计自身推理链与关键假设，并以可解释方式更新立场与结论。第三步，共识优化：每轮结束后进行共识判定与早停；若三轮内仍不收敛，则以多数投票作为保底输出策略。与传统“静态集成/硬投票”不同，MCC将多模型互补性显式转化为“基于上下文的迭代纠错”协作过程，使异构模型在知识覆盖与推理偏好上的差异得以用于错误定位与证据对齐，从而显著提升难题场景下的收敛质量与输出稳定性。

MCC（模型对抗与协作）框架概览

MCC在多项代表性医学基准上展现出一致而稳定的性能：在MedQA上取得92.6%（±0.3）的平均准确率，并在多次独立运行中显示出稳定性。PubMedQA达到84.8%；在MMLU医学子集中覆盖遗传学、解剖学等多个科目，整体维持90%+，并在其中五个科目获得SOTA表现。更重要的是，MCC不仅在“常规题”上提升准确率，也在“更难、更接近真实风险”的评测中保持稳健：在MedXpertQA上准确率约40%，在该基准的对比评测中表现位居前列。在MetaMedQA中能够识别不确定或无明确标准答案的情形并给出“未知/需补充信息”的保守处理，体现出更强的元认知边界管理能力。此外，在RABBITS鲁棒性测试中，面对药物商品名与学名的混用与替换，MCC性能几乎不受影响，显示其对临床语言变体具有更强的泛化与稳定性。

在开放式长问答任务中，团队使用MultiMedQA基准并邀请医生与非专业评审开展双视角盲评，以评估模型在真实医疗咨询中的综合表达与建议能力。结果显示，MCC在所有维度上均优于GPT-o1、Qwen、DeepSeek-R1以及Med-PaLM2：医生评审的12项指标中，MCC在病情要点提取、推理正确性与偏差控制等关键维度提升8–12个百分点且错误内容率更低；在另一组9项综合质量指标中，其缺陷率下降3%–9%，一致性与知识覆盖更为稳定。进一步在HealthBench上，MCC在与临床专家共识对齐的任务中取得92.1的综合评分，并在更高难度的HealthBench Hard中保持领先，体现出在复杂场景下的稳健性与安全性优势。

为评估MCC在交互式诊疗场景中的能力，研究团队构建了类医学院OSCE的模拟病例对话测试：模型作为医生与模拟患者实时交互，在完成病史采集后给出诊断与鉴别诊断。结果显示，MCC在病史采集阶段平均可捕获80%以上的关键患者信息点；在16个病例中，有14例的信息覆盖率超过80%，而单一模型在同等标准下难以稳定达到该水平。与此同时，MCC提出的问题与患者主诉的相关性更高（多数病例>80%），提示其问诊路径更聚焦关键线索、减少遗漏。在诊断结论阶段，在15个可判定病例中，MCC的首选诊断正确率达到80%（12/15），并在鉴别诊断的完整性上呈现优势。典型案例是一位56岁女性出现多饮多尿、乏力与体重下降，既往以2型糖尿病处理但血糖控制不佳。辩论过程中，模型间交叉质询促使补问胰腺相关病史与上腹痛向背部放射等线索，进而将诊断从“糖尿病本身”推进至“胰腺肿瘤相关继发性糖尿病”的更深层解释，体现出“圆桌式会诊”对关键线索召回与深入诊断推理的促进作用。

本研究表明，多模型对抗与协作可作为医疗推理能力增强的一种通用范式：在不引入额外任务训练与外部知识库的条件下，借助结构化辩论将不同模型的知识覆盖与推理偏好差异显式用于交叉核验、证据对齐与错误纠偏，从而提高复杂问题上的推理收敛质量与输出稳定性。需要强调的是，MCC并非替代医生，而是提供多角度论据与可追溯的辩论日志，帮助临床人员降低漏诊误判风险并提升决策透明度，同时亦具备教学示范意义。面向临床应用，仍需进一步推进与电子病历及检查结果的端到端集成、对不确定/冲突信息的处理策略，以及隐私合规与计算成本控制，使其能够以安全、高效的方式融入真实工作流。

作者专访

Cell Press细胞出版社特别邀请作者团队进行了专访，为大家进一步解读该项研究。

CellPress：

MCC有什么核心优势？

孙欣提博士（共同第一作者）：

MCC的优势在于，它不是把多个模型的答案做“简单投票”或“静态拼接”，而是通过结构化辩论去优化医学推理过程本身。受“同伴互动促进自我纠错”的心理学发现启发，我们让多个先进大语言模型围绕同一问题进行原则化的对抗与协作：当模型间出现分歧时触发对抗式激活，通过批判与自我反思机制识别并纠正错误推理路径，再在多轮交互中逐步形成更稳健的共识推理链。这种机制更接近临床中的“圆桌会诊”，带来的提升不只是答案一致性，更是推理深度与可靠性。其次，MCC通过去中心化的多模型组合缓解“算法同质化”带来的偏置与僵化风险。我们将来自不同提供方、不同训练范式的模型纳入同一辩论框架，鼓励认识视角多样性，并通过对抗性批判避免过早收敛，从而提升决策鲁棒性与安全性。第三，MCC采用zero-shot设计，不依赖微调或外部知识库，却能在多类医学任务中稳定带来提升：在MedQA选择题上达到92.6%的准确率，并在PubMedQA与MMLU子集中表现领先；在长文本医学问答中，相比单模型与Med-PaLM 2，在知识回忆与推理质量上分别最高提升11.8%和8.8%，回答更安全、更准确，也更具临床严谨性；在诊断对话任务中，MCC进一步改善病史采集，并将Top-1诊断率提升至80%。此外，MCC的全过程辩论记录透明可追溯，用户可以清晰看到模型如何推理、分歧与修正，这不仅增强可解释性，也为构建可信的多模型医疗系统提供了重要依据。最后，MCC具有良好的可扩展性与“即插即用”特征：随着大语言模型持续迭代，我们无需改动框架核心或额外微调，即可将更新、更强的模型接入辩论系统，持续提升推理质量与可靠性，使其更像一个可演进的临床推理“基础设施”。

CellPress：

MCC的真实医疗应用场景是什么？

洪奇阳博士（共同第一作者）：

MCC的价值在真实医疗中主要体现在高风险、信息复杂、需要多视角交叉验证的场景里。第一类场景是复杂病例的临床决策支持。在临床实践中，医生往往需要在有限时间内整合病史、体征、检验检查与指南证据。MCC通过多模型的结构化辩论与自我纠错机制，能够提供更全面的鉴别诊断思路、风险分层与下一步检查建议，并用透明的推理轨迹展示“为什么这样想”，更接近真实的MDT/查房讨论方式。我们也强调它是辅助工具：输出共识观点的同时尽量提示不确定性，帮助医生降低认知负荷，而不是替代临床判断。第二类场景是标准化问诊与分诊支持，尤其在基层或线上医疗中更为常见。我们在OSCE风格的模拟问诊中观察到，MCC在病史采集与诊断推理上具备优势：它能更系统地追问关键信息，并在最终诊断上达到较高的top-1命中率。这提示MCC有潜力用于初步分诊、问诊提纲生成、以及复杂症状的结构化信息捕获（当然仍需要在真实临床数据与流程中进一步验证）。第三类场景是医学教育与培训。OSCE的模拟对话天然适配“可观察的推理过程”。MCC的辩论记录可以把“为什么要问这个问题、如何构建鉴别诊断、哪些线索最关键”显性化，适合作为虚拟患者训练、临床思维教学、以及带评分量表的教学评估平台。第四类场景是医患沟通与健康教育。在面向公众的长文本医学问答中，我们发现MCC更容易给出覆盖更全、结构更清晰、风险提示更充分的回答，更适合用于面向患者的解释、随访要点整理与健康宣教材料的生成。最后，在真实部署层面我们也做了面向临床可用性的考虑：MCC的完整辩论日志虽然透明，但可能较长，因此我们设计了结构化的总结提示，把长辩论压缩为更便于临床快速浏览的“关键推理链与证据摘要”。未来工作的重点，是在临床价值与计算成本之间找到更好的平衡，并建立更完善的人机协作与真实世界评估体系。

CellPress：

下一步您最想推进哪些研究方向，以推动MCC向真实临床应用迈进？

万沛星教授（共同通讯作者）：

我们认为MCC更像一个可演进的“临床推理基础设施”，未来将重点从四个方向推进。第一，真实世界临床验证与人机协作。下一步需要在更贴近临床流程的场景中开展系统评估，例如分诊、复杂病例讨论与随访管理，并明确人机协作边界与责任机制，验证其对诊断质量、工作负荷与安全性的真实影响。第二，更稳健的不确定性处理与安全机制。真实临床常伴随信息缺失、表述模糊与证据冲突。我们希望进一步增强“分歧管理”和“证据校验”能力，让系统能够更清晰地区分可确定结论与需要补充信息的部分，避免在高不确定情境下产生过度自信的输出。第三，效率与成本优化。多轮辩论带来额外计算与时间开销。未来将改进辩论触发与终止策略，并结合结构化总结，把长辩论压缩为临床可快速阅读的关键结论与证据链，以适配真实场景的时间约束。第四，多模态拓展与可扩展性。真实医疗决策往往依赖病史文本、检验检查、生命体征与医学影像等多源信息。由于MCC具备模型无关与“即插即用”的特征，未来我们计划将多模态模型纳入同一辩论框架，让不同模态证据交叉验证，同时建立更全面的评测体系，推动其在真实医疗中的可信落地。

CellPress：

您如何看待多模型协作在医疗AI中的长期发展？

龙尔平教授（共同通讯作者）：

我认为多模型协作会成为医疗AI走向临床可信应用的重要趋势之一。原因很直接：真实临床决策本质上不是“一个人做题”，而是多学科、多视角在不完整信息下不断质疑、补全与校正的过程。单一模型再强，也天然缺少外部校验与交叉验证机制；而多模型协作把“分歧”显式暴露出来，并通过批判与自我反思把分歧转化为纠错机会，更接近临床团队讨论的工作方式。从发展路径看，我认为未来会出现三个变化。第一，多模型协作会从“提升准确率”的工程手段，逐步演化为一种更系统的不确定性管理框架：不仅给出结论，还能说明结论的置信程度、关键证据链，以及哪些信息缺失导致无法下定论，从而更符合临床对安全性的要求。第二，协作会从“同质模型的堆叠”走向异质化与多模态：把不同厂商、不同训练范式的推理模型与影像/检验等多模态模型纳入同一协作体系，让不同来源的证据互相质疑与交叉验证，提升复杂病例中的证据整合能力。第三，落地形态会更强调效率与可用性：辩论并不意味着永远多轮交互，未来系统需要更聪明地决定何时启动协作、何时快速收敛，并把长过程压缩成临床可快速阅读的要点总结，保证“看得懂、用得上、负担得起”。当然，多模型协作也会带来新的挑战，比如群体性偏误、从众效应、成本与延迟上升等。因此我更倾向于把它视为“增强临床判断的基础设施”，而不是替代医生的自动化系统。只有在真实世界的临床流程中，通过严格评估与明确的人机协作边界，多模型协作才能真正释放价值，并成为可信医疗AI的长期方向。

作者介绍

龙尔平

研究员

通讯作者：龙尔平，中国医学科学院/北京协和医学院研究员、基础医学研究所-生物信息中心主任、博士生导师、国家海外优青。专注医学人工智能和组学大数据研究，原创论文发表于Nature Medicine、Nature Biomedical Engineering（封面论文2篇）、Nature Genetics、Nature Ecology& Evolution等期刊；在Science、Lancet发表观点述评；成果入选Nature亮点研究报道；主持“科技创新2030”国家重大科技专项（首席科学家）、国自然-重大疾病智慧医疗专项；获“华人生命科学博士最高荣誉”吴瑞奖、“中国智能科学技术最高奖”吴文俊人工智能科技进步一等奖。

万沛星

副研究员

通讯作者：万沛星，北京大学基础医学院副研究员，博士生导师，国家海外优青。研究方向为医学大模型与临床智能基础问题，关注人工智能如何介入并重塑临床医疗中信息理解、沟通与决策等核心交互机制，并以医患沟通为切入口，探索下一代临床智能的基础范式。研究成果发表于Nature Medicine、Cell Death Differentiation、Molecular Therapy、Cell Genomics、Cell Reports Medicine、Cell Research等杂志，获得NIH青年学者奖Visiting Fellow Award。

mcc医疗怎么玩龙尔平／万沛星团队发布大模型“圆桌会议”框架MCC，大幅提升医疗推理能力｜ Cell Press对话科学家

相关推荐

热门文章

切换注册登录

切换登录注册