26-02-18,国际顶级期刊《Nature》发表论文《An agentic system for rare disease diagnosis with traceable reasoning》,核心研发团队来自上海交通大学、上海人工智能实验室、上海交通大学医学院附属新华医院、中南大学湘雅医学院附属儿童医院等机构,通讯作者为张娅、余永国、孙锟、谢伟迪。

2026-02-19,国际顶级肿瘤学期刊《Cancer Cell》发表论文《Knowledge-enhanced pretraining for vision-language pathology foundation model on cancer diagnosis》,由上海交通大学、上海人工智能实验室、上海交通大学医学院附属新华医院等机构的周潇、孙洛伊、何德轩、谢伟迪、王延峰、张娅、孙琨等学者联合完成。

这两篇文章均出自同一个团队,这种发文方式之前基本只会出现在国外的头部课题组;如果没有猜错的话,这两篇文章应该是同时期立项的,或者其中某一个项目是做实验过程中分离出来的。
这里可以多说一嘴,个人认为,目前的研究其实就两个大方向:小/大——如果做【小】研究,就关注小群体,例如这两篇文章的罕见病领域;如果做【大】研究,就关注模型本身的泛化性,例如上面那篇Nature提到的Agent技术,你把它应用的泛癌的研究中。
那篇Nature我在前两天已经写推送详细介绍过了,今天这篇推送,我们来看看这篇病理AI领域的基础模型,是如何和Nature肩并肩同步发表的。
病理诊断始终是癌症诊断的“金标准”,过去十年,深度学习的发展让计算病理学迎来了爆发,AI辅助诊断已经能在部分常见癌症上实现不错的效果。
但行业始终绕不开两个核心死穴:
即便是此前行业顶尖的病理视觉语言大模型,也没能跳出这个局限。
它们大多用公开的病理图文对做简单的对比学习,就像教孩子认字只记图片和字形,却不教字义、词根和组词逻辑,最终只能认得见过的字,遇到生僻字就束手无策。

来自上海交通大学、上海人工智能实验室、上海交通大学医学院附属新华医院等机构的团队,研发出了KEEP(KnowledgE-Enhanced Pathology,知识增强病理大模型),这套首次将层级化疾病知识系统融入视觉语言预训练的病理基础模型,不仅在18个公开基准测试上全面领跑,更在罕见癌症诊断上实现了碾压式的性能突破,让病理AI真正从“刷题机器”变成了“懂医学知识的智能助手”。
KEEP模型的全链路逻辑:
核心创新是把层级化医学知识系统性注入病理视觉语言大模型,解决了传统纯数据驱动模型泛化性差、罕见癌诊断失灵的行业痛点。
子图A:构建的疾病知识图谱示例
这是KEEP模型的知识根基,也是整个研究最核心的创新源头,展示了论文中构建的层级化疾病知识图谱的底层结构。

图中每一个彩色节点代表一个疾病实体,整个图谱最终整合了11454种人类疾病,每个疾病节点都包含三大核心医学属性(虚线框标注):
传统病理大模型仅靠“病理图片-文本描述”的配对死记硬背,而KEEP先让模型学透完整的疾病知识体系,搞懂疾病之间的关联、医学定义与规范表述,从根源上让模型“理解医学”,而非单纯拟合数据。
子图B:KEEP模型的知识编码与视觉-语言对齐阶段
这张图展示了KEEP模型从知识编码到预训练的完整技术流程,分为三个环环相扣的核心步骤,完整还原了论文的模型架构设计:

第一步:Knowledge encoding(知识编码)
第二步:Data cleaning(知识引导的数据清洗)
第三步:Semantic alignment(语义对齐)
子图C:下游癌症诊断任务
这张图明确了KEEP模型能覆盖的三大核心临床病理任务,也是病理AI最核心的落地场景,证明KEEP是一个通用型病理基础模型,而非单一任务模型:

输入:将整张病理全切片(WSI)切分后的小图块(tile),先通过KEEP完成零样本图块分类。
三大核心任务:
三大任务均支持零样本完成,无需针对每个任务做大量标注和微调,适配临床中多样化的诊断需求。
子图D:癌症诊断的临床工作流
这张图以肺鳞癌诊断为实际案例,一步一步展示了KEEP在真实临床场景中的完整工作流程,完全对应论文中的临床落地设计,分为3个核心步骤:

第一步:WSI预处理与分块
第二步:通过KEEP完成图块级处理
A histopathology image of [normal lung tissue/lung adenocarcinoma/lung squamous cell carcinoma](一张[正常肺组织/肺腺癌/肺鳞癌]的组织病理图像)。第三步:预测结果的映射与聚合
全程零样本、无任务专属微调,且结果完全可解释——医生可直接看到模型判断的癌细胞区域,而非黑箱式的诊断结果,满足临床落地的核心要求。
子图E:全切片级癌症诊断性能
这是一张多任务雷达图,展示了KEEP在18个公开基准数据集、超14000张全切片图像上,与行业顶尖病理大模型(PLIP、QuiltNet、MI-Zero、CONCH)的性能对比,是论文核心的效果验证:

图例与数据集说明:
核心结果:
KEEP在分割、检测、分型三大核心病理诊断任务上,全面超越了当时的行业顶尖模型。
子图F:图块级分类性能
这是一张极坐标雷达图,展示了KEEP在14个图块级病理图像分类基准数据集上的零样本分类性能,验证了模型最基础的视觉特征提取与泛化能力:

医学AI交流群
目前小罗全平台关注量120,000+,交流群总成员3000+,大部分来自国内外顶尖院校/医院,期待您的加入!!
由于近期入群推销人员较多,已开启入群验证,扫码添加我的联系方式,备注姓名-单位-科室/专业,即可邀您入群。
团队介绍
罗小罗团队是一支以国内外硕博为主的科研团队,覆盖影像组学、病理组学以及基因组学等医学AI主流研究领域。
980+医学图像公开数据集查询系统,680+医工交叉开源代码仓库,最新的医学AI前沿论坛回放等你来探索!
团队的宗旨是汇聚国内外顶尖人才,构建医学AI生态,推动医学AI从实验室走向临床,期待您的加入!
病理AI一站式分析软件
我们团队针对刚入门病理AI领域的同学/老师,开发了一个一站式软件,可以让大家避免复杂的命令行操作;
如果有需要,可以扫码咨询!
KEEP最核心的突破,是颠覆了传统病理大模型“纯数据驱动”的预训练逻辑,开创了“医学知识+图文数据”双轮驱动的全新范式。
如果说传统模型是“先看切片,再硬记对应的病名”,那KEEP就是“先学透完整的疾病知识体系,再结合切片理解病理特征”;
二者的本质差异,就像业余爱好者靠脸认明星,和专业医生靠解剖学、病理学知识诊断疾病的区别。
想要让AI真正“懂”病理,而非单纯拟合数据,KEEP通过三个环环相扣的核心步骤,把权威医学知识深度注入了模型的“基因”里。
想要教AI诊断疾病,首先要让它搞懂“什么是疾病,疾病之间有什么关系”。
研究团队没有直接让模型去学杂乱的图文数据,而是先整合了国际权威的疾病本体库(DO)和统一医学语言系统(UMLS),构建了一套超大规模的疾病知识图谱。
这套图谱包含了11454种疾病实体,以及139143个对应的疾病属性——其中有108902个疾病同义词、14303条权威疾病定义,还有15938组疾病上下位层级关系。
比如肺鳞癌,不仅有它的别名、定义,还明确了它属于非小细胞肺癌,而非小细胞肺癌又属于肺癌的完整层级链条。
在此基础上,团队基于PubMedBERT训练了专门的知识编码器,通过度量学习让模型学会:同一个疾病的同义词、定义、层级链条,在向量空间里要紧紧靠在一起;不同疾病的表征要清晰分开。
这就像给AI编了一本带完整思维导图的《疾病百科全书》,让它先彻底搞懂疾病的“底层逻辑”,而不是上来就看切片、记特征。
传统病理大模型的训练数据,大多来自公开平台的图文对,这些数据不仅规模远小于通用视觉领域,还充满了噪声:有非病理的影像图片,有和图片无关的文本描述,还有大量不规范、不结构化的标注,就像一本东拼西凑、错漏百出的课堂笔记,AI根本学不到真正有用的知识。
KEEP用提前构建好的知识图谱,给这套“杂乱笔记”做了一次彻底的校对和整理:
这一步就像把杂乱的错题本,整理成了分章节、分知识点的系统教材,AI学习的时候,再也不会被无效信息干扰,能精准地把病理图像和对应的疾病知识绑定在一起。
有了知识编码器和结构化的数据集,KEEP终于实现了真正的知识增强视觉语言预训练。
团队用预训练好的知识编码器作为文本编码器的初始化权重,用在病理领域经过验证的UNI模型初始化视觉编码器,让图像和文本的对齐,不再是简单的“图片-文字”配对,而是“病理特征-疾病知识”的深度语义对齐。
更巧妙的是,团队针对病理数据的特点,设计了三大训练优化策略:难正例挖掘、最难负例挖掘,还有最关键的假阴性消除。
传统对比学习会把不同疾病的图文对都当成负例,但在医学里,肺腺癌和肺鳞癌都属于非小细胞肺癌,二者有亲缘关系,强行当成完全无关的负例,会让模型学不到疾病之间的关联。
KEEP通过知识图谱里的层级关系,判断两个疾病是否有共同的上位节点,避免把有亲缘关系的疾病当成负例,从根源上解决了假阴性的问题。
这就像老师教学生区分两种相似的疾病,不会让学生把它们当成完全无关的东西,而是先讲清楚它们的共同点和核心区别,让学生理解着去区分,而不是死记硬背两张图片的差异。
也正是这个设计,让KEEP对癌症亚型,尤其是罕见亚型的区分能力,实现了质的飞跃。
研究团队对KEEP做了迄今为止最大规模的病理大模型评估,覆盖了18个国际公开基准测试、超14000张病理全切片图像,还有4个机构内部的罕见癌症数据集(926例病例),涵盖了病理AI三大核心临床任务:癌症区域分割、癌症检测、癌症分型,全面对标了当前行业最顶尖的病理大模型。
所有公开基准测试,团队都采用了最严格的零样本设置——不给模型做任何任务专属的微调,只靠预训练学到的知识和能力完成任务,这最能考验模型的通用能力和泛化性,也最贴近临床里“遇到新病种、新数据集”的真实场景。
在癌症区域分割任务上,KEEP的表现堪称惊艳。
在乳腺癌转移检测的CAMELYON16数据集、前列腺癌分级的PANDA数据集、前列腺癌Gleason分级的AGGC22数据集上,KEEP的DICE系数(衡量分割精准度的核心指标),比当时的行业SOTA模型CONCH分别高出6.8和8.1个百分点;
经过简单的形态学后处理,DICE系数还能再提升3-9个百分点。
这意味着,KEEP能比之前最好的模型,更精准地圈出切片里的癌细胞区域,漏标和误标的概率大幅降低,给病理医生提供的参考也更具临床价值。
在癌症检测任务上,KEEP在7个CPTAC癌症数据集(覆盖皮肤、肾脏、胰腺、子宫、肺、头颈6个部位)的测试中,在95%特异性的临床标准下,平均灵敏度达到了0.898。
这个数字是传统病理大模型CHIEF的2倍多,比CONCH高出5.1个百分点,比MUSK高出4.4个百分点。
通俗来说,就是在保证100个阴性样本里最多只误诊5个的前提下,KEEP能查出近90%的癌症患者,漏诊率远低于此前的所有模型,这在癌症早筛场景里,有着至关重要的临床意义。
在癌症分型任务上,KEEP在7个常见癌症分型数据集中的6个上,都拿到了最好的成绩。
尤其是在脑癌分型任务上,KEEP的平均平衡准确率达到0.604,比CONCH高出15个百分点,比其他模型高出25个百分点。
要知道,癌症分型直接决定了患者的治疗方案,是精准医疗的核心前提,KEEP能在零样本的前提下,实现如此高的分型准确率,已经具备了极强的临床辅助潜力。
更关键的是,团队的消融实验直接证明:仅仅是知识注入这一项设计,就给癌症分割和分型任务带来了平均7.3%和7.2%的性能提升。
这说明KEEP的性能突破,不是靠模型堆料、数据堆砌实现的,而是来自于知识增强的核心创新,这也给整个计算病理学领域,指明了一条全新的发展路径。
罕见癌症的核心痛点,就是病例极少、训练数据稀缺,传统纯数据驱动的模型,根本学不到足够的特征,在零样本场景下基本没有区分能力。
团队用了两类最具挑战性的罕见癌数据集,来验证KEEP的能力:
在30种罕见脑癌的分型任务上,KEEP的平衡准确率达到0.456,是PLIP、QuiltNet等传统模型的4倍多,比CONCH高出8.5个百分点,比MUSK高出15.5个百分点。
要知道,这些罕见脑癌亚型,很多基层病理医生都未必能精准区分,而KEEP在没有经过任何针对性微调的零样本场景下,就能实现如此高的准确率。
在儿童罕见癌症数据集上,KEEP的表现同样亮眼:在神经母细胞瘤、肝母细胞瘤的零样本分型任务上,KEEP显著优于所有对比模型;
即便是只有1-8个训练样本的少样本场景,KEEP也始终保持领跑,在5折交叉验证下,平衡准确率达到0.671±0.085,是所有视觉语言病理模型里的最高水平。
团队在研究中发现了一个极具说服力的细节:传统模型在罕见癌分型任务上,基本会把绝大多数样本都归到同一个亚型里,完全没有区分能力;而KEEP因为提前掌握了完整的疾病知识体系,就算没见过这个罕见病的切片,也能通过它和其他疾病的亲缘关系、定义特征,做出合理的诊断。
这正是KEEP最核心的价值——它让病理AI的零样本能力,从“见过类似图片才能认”,变成了“懂了医学原理就能推断”。
在过去的两年里,整个行业都陷入了“纯数据驱动”的内卷:大家都在拼命堆更大的模型、找更多的图文数据,却始终无法解决标注成本高、泛化性差、罕见病诊断失灵的核心痛点。
而KEEP证明,把权威的医学领域知识,系统性地融入大模型的预训练过程,能以更低的成本,实现更好的性能,甚至能完成传统模型根本做不到的罕见癌零样本诊断。
这打破了行业的路径依赖,让“知识+数据”双轮驱动,成为病理大模型全新的发展方向。
对于临床诊断来说,KEEP的出现,又把技术落地的进程往前推了一步。
一方面,它试图打破罕见癌诊断的资源壁垒,以前只有顶级三甲医院的专家能确诊的罕见病,现在通过KEEP的辅助,基层医院的病理医生也可能做出精准的判断,极大地缩小了不同地区的医疗资源差距,让更多罕见癌患者能尽早确诊、及时治疗。
另一方面,KEEP的零样本泛化能力,让AI病理系统不用针对每个医院、每个病种做单独的微调,大大降低了AI病理落地的成本和门槛,能更快地普及到各级医院,真正走进临床日常。
更重要的是,KEEP的诊断具备极强的可解释性:它能给病理医生输出清晰的癌细胞区域热力图,明确告诉医生“癌细胞在哪,为什么判断是这个亚型”,而不是像传统模型一样,只给出一个冷冰冰的诊断结果。
这种可解释性,是AI病理能获得医生信任、真正融入临床 workflow 的核心前提。
当然,研究团队也在论文里坦诚了KEEP的局限性。
对于极罕见的疾病,因为缺乏足够的文本描述和数据,模型的性能还有提升空间;
未来还可以结合提示学习,进一步提升模型的鲁棒性,还能整合基因组、表观组的多组学数据,让AI不仅能看病理切片,还能结合基因信息,实现更精准的分子分型和预后预测。
病理医生的培养,需要十几年的寒窗苦读,不仅要看无数的切片,更要建立完整、系统的医学知识体系。
过去的病理AI,就像是一个只会刷题的“考生”,而KEEP的出现,试图让AI病理学会像真正的医生一样,用知识体系去理解、去判断、去诊断。
这不仅是AI技术的一次突破,更是给无数癌症患者,尤其是罕见癌患者,带来了新的希望。
未来,随着知识增强病理大模型的不断迭代和落地,会有更多患者能获得更早、更精准的癌症诊断,让“金标准”的病理诊断,不再受限于地域和资源,真正实现普惠的精准医疗。
参考文献
本文核心内容源自发表于国际顶级肿瘤学期刊《Cancer Cell》的研究论文《Knowledge-enhanced pretraining for vision-language pathology foundation model on cancer diagnosis》,由上海交通大学、上海人工智能实验室、上海交通大学医学院附属新华医院等机构的周潇、孙洛伊、何德轩、谢伟迪、王延峰、张娅、孙琨等学者联合完成。