目录
1. 引言
1.1 关键词
2. 相关工作
2.1 多模态大语言模型(MLLMs)
2.2 医学领域的多模态大语言模型
3. 多层次数据集和基准的构建
3.1 医学 VQA 中的多层次能力
3.2 MLe-VQA 数据集
3.3 MLe-Bench 基准
4. 模型架构
4.1 概述
4.2 注意力驱动的 Token 选择器
4.3 上下文合器
4.4 训练策略
5. 实验
5.1 实验设置
5.2 与现有模型对比
5.3 消融实验
5.4 推理能力分析
6. 局限性
医学视觉问答(Medical Visual Question Answering, MVQA)要求对医学图像和问题有深入理解,以提供可靠答案。现有MVQA模型由于数据集的不完备和架构简单,往往忽略 多层次渐进能力,如识别(Recognition)、细节(Details)、诊断(Diagnosis)、知识(Knowledge)和推理(Reasoning)。
为此,本文提出 多层次视觉语言模型(Multi-level Visual Language Model,MLeVLM),通过构建高质量的多层次指令数据集 MLe-VQA 以及设计多层次特征对齐模块(multi-level feature alignment,MLFA)提升 MVQA 性能。
实验结果表明,MLeVLM 在自构的基准 MLe-Bench 上超越现有医学多模态大语言模型。
医学视觉问答(Medical Visual Question Answering),多层次渐进能力(Multi-level Progressive Capabilities),多模态大语言模型(Multimodal Large Language Model),特征对齐(Feature Alignment)
多模态大语言模型(MLLM)通过结合视觉编码器和大语言模型(LLM),实现图像和文本的联合理解。例如:
医学领域的 MLLM 如 LLaVA-Med 和 Med-Flamingo 将通用领域的 MLLM 迁移到医学领域,利用医学图像-文本对进行微调。Med-PaLM 使用大规模医学多模态数据集进行训练,旨在提升医学领域的视觉问答能力