当一位病理医生在显微镜前观察组织切片时,他就像一位试图破解复杂案件的侦探——每一个细胞形态、每一处组织结构的异常,都是指向疾病真相的“线索”。
但如果这位“侦探”想借助人工智能(AI)提升破案效率,却会遇到一个棘手问题:能用来训练AI的“线索库”(病理图文数据)实在太少了。
传统病理领域的图文数据集要么规模微小(如ARCH仅7614对图文),要么覆盖范围有限(如OpenPath虽达20万对,仍难满足多亚专科需求),导致病理AI始终“吃不饱”,难以应对千变万化的疾病亚型。
而今天要介绍的QUILT-1M,正是为解决这一困境而生的“超级线索库”——它是一个病理领域的视觉-语言数据集,包含100万组病理图像与文字描述对,不仅填补了数据缺口,更通过创新的数据收集与处理逻辑,让病理AI第一次能“读懂”病理图像背后的复杂医学语义。

病理AI的核心痛点,本质是“优质数据稀缺”。
一方面,病理图像(尤其是全切片图像WSI)体积庞大、标注成本极高,单张WSI标注可能需要数小时;
另一方面,医疗数据隐私限制严格,公开可用的标注数据少之又少。
此前最大的公开病理图文数据集OpenPath仅有20万组数据,远不及自然语言领域动辄千万级的数据集规模。
QUILT-1M的突破,首先在于找到了一个“被忽略的宝库”——YouTube病理教育视频。
这些由资深病理医生录制的视频,往往包含“边操作显微镜边讲解”的场景:医生会放大到10倍、20倍甚至40倍视野,指着特定区域说“这里是上皮岛,有中央角化,是角化囊肿的典型特征”。
这种“视觉+语言”的天然配对,正是训练病理AI最宝贵的素材。

研究团队从1087小时的YouTube视频中,先筛选出“叙事型视频”(即医生持续讲解病理图像的视频,而非静态幻灯片展示),再从中提取有效信息。
这一步就像从海量教学视频中挑出“最适合做笔记的课程”——不仅要看内容是否专业,还要确保画面与讲解高度匹配。
加入团队
罗小罗团队是一支以国内外硕博为主的科研团队,覆盖影像组学、病理组学以及基因组学等医学AI主流研究领域。
团队目前拥有7名副教授,60+硕博,多名成员以第一作者身份在Nature(2篇)、Nature Communications、Advanced Science以及Radiology等顶级期刊发表过论文。
如果想要加入我们团队,欢迎投递个人简历到团队邮箱:lxltx2025@163.com
医学AI交流群
目前小罗全平台关注量120,000+,交流群总成员3000+,大部分来自国内外顶尖院校/医院,期待您的加入!!
由于近期入群推销人员较多,已开启入群验证,扫码添加我的联系方式,备注姓名-单位-科室/专业,即可邀您入群。
要将杂乱的视频转化为标准的“图像-文字”配对数据,QUILT-1M的制作过程就像一条精密的“食品加工线”,每一步都要兼顾“去杂质”与“保营养”。
筛选“优质原料”——挑对视频
不是所有YouTube病理视频都能用。
团队首先用关键词(覆盖18个病理亚专科,如皮肤病理、胃肠病理)搜索视频,排除订阅量超30万的“泛科普频道”(避免非专业内容),只保留“小而专”的教育频道。
接着,通过两个关键筛选:
最终,团队从6.5万条候选视频中,筛选出4504条符合要求的叙事型视频,这是保证数据质量的基础。
提取“核心成分”——抠出有用图像
视频里的画面杂乱,可能有医生的手、窗外的光,甚至镜头晃动。
团队的目标是提取“纯净的病理图像”:
这一步就像从一段烹饪视频里,只截取“食材特写”,去掉主持人的手部动作和厨房背景——只留下最关键的“观察对象”。
处理“配套说明”——修复并提取文字
视频里的讲解是“文字原料”,但直接用语音转文字(ASR)会出错:比如把“serous carcinoma(浆液性癌)”转成“serious carcinoma(严重的癌)”,这对医学数据是致命的。
团队用“三层纠错法”解决这个问题:
这一步好比让学生先自己整理课堂笔记,再找医学老师核对术语,最后请教授补充完整逻辑——确保文字描述既准确又贴合图像。
“图文配对”——让图像和文字精准对应
最后一步是让“图像”和“文字”一一对应:根据图像提取的时间点,找到同一时间段内的文字,再通过关键词匹配(比如图像关键词“psammoma bodies(砂粒体)”与文字里的“脑膜瘤常见砂粒体”匹配),确保每幅图像都有对应的医学描述和ROI描述。

至此,从YouTube视频中提取的QUILT数据集(80.2万组图文),再结合PubMed论文、LAION互联网数据、Twitter的OpenPath数据,最终组成了100万组图文的QUILT-1M——病理领域的“百万级”视觉-语言数据集。
有了优质数据,训练出的AI模型表现如何?
团队基于QUILT-1M微调CLIP模型(一种跨模态AI),得到QUILTNET,并在13个病理数据集(覆盖8个亚专科,如乳腺、皮肤、肾脏病理)上做了测试,结果超出预期。
零样本分类——AI“举一反三”能力更强
零样本分类指AI没见过某类病理图像,仅通过文字描述就能识别(类似医生第一次见罕见病,靠教科书描述诊断)。
在12个零样本任务中,QUILTNET几乎全面超越现有模型:
这意味着,QUILTNET能凭文字描述识别更多罕见病理亚型——对临床中“样本少、种类多”的病理诊断极具价值。
线性探测——用少量数据就能“精通”
线性探测测试AI用少量标注数据提升性能的能力(类似医生只看10个病例,就能掌握某种疾病的诊断)。
结果显示:
这一结果打破了“AI需要海量标注数据”的刻板印象——借助QUILT-1M的优质预训练,病理AI能更高效地利用临床稀缺的标注资源。
跨模态检索——图文“双向奔赴”更精准
跨模态检索测试“用文字找图像”或“用图像找文字”的能力(类似医生输入“有砂粒体的脑膜瘤”,AI能找出对应的切片图)。
在QUILT-1M的预留数据集和ARCH数据集上:
这对病理教学和科研意义重大——未来医生或学生想找特定病理特征的案例,只需输入文字,就能快速定位到对应的图像,大幅提升学习效率。
QUILT-1M的价值,远不止“多了一个数据集”——它为病理AI打开了三个全新的可能性。
让病理AI覆盖更多“小众亚专科”
此前病理AI多集中在肺癌、乳腺癌等常见领域,而像骨肿瘤、神经病理等小众亚专科,因数据少几乎无人问津。
QUILT-1M覆盖18个病理亚专科,其中包含大量罕见亚型数据(如Rosai-Dorfman病、角化囊肿),让AI首次能“触达”这些小众领域。
比如在骨肿瘤(Osteo)数据集上,QUILTNET准确率达54.0%,比CLIP(19.5%)提升近3倍——这意味着未来AI能为小众亚专科的医生提供更多辅助。
解锁“存量病理数据”的价值
医院里储存着大量“沉睡”的全切片图像(WSI),但因缺乏文字描述,无法用于AI训练。
QUILTNET的跨模态能力,能为这些WSI自动生成文字描述(如“此区域可见淋巴细胞浸润”),让存量数据变成“可用资源”——相当于为病理科激活了一座“数据金矿”。
推动“精准病理”更近一步
传统病理诊断依赖医生经验,同一病例可能有不同判断。
QUILT-1M的文字描述来自资深医生的讲解,包含“细胞形态、结构特征、诊断依据”等细节,训练出的AI能学习这些“专家逻辑”,辅助医生做出更一致的诊断。
比如在乳腺导管癌(Databiox)分级中,QUILTNET准确率达59.8%,接近资深病理医生的水平——这为基层医院或资源匮乏地区提供了“专家级”的辅助工具。
QUILT-1M并非完美——它的视频多来自西方英语频道,可能存在地域偏差;ASR对口音较重的讲解仍有纠错盲区。
但它的意义在于,证明了“非传统医疗数据(如教育视频)”的价值,为病理数据收集提供了新范式。
未来,随着更多多语言、多中心数据的加入,病理AI或许能真正实现“无论在哪家医院,都能获得一致的专家级诊断建议”——而这一切的起点,正是QUILT-1M所打破的“数据荒”困局。
参考资料
本文核心技术来自华盛顿大学与艾伦人工智能研究所团队2023年发表于arXiv的论文《Quilt-1M: One Million Image-Text Pairs for Histopathology》(论文编号:arXiv:2306.11207v4)
数据集与代码请移步Quilt-1M官网:https://quilt-llava.github.io/