医学上ACL是什么（2024｜ACL｜北大，MLeVLM，多层特征对齐）基于 MLLM 提升医学视觉问答的多层渐进能力

新闻资讯2026-04-23 22:05:51

1. 引言

1.1 关键词

2. 相关工作

2.1 多模态大语言模型（MLLMs）

2.2 医学领域的多模态大语言模型

3. 多层次数据集和基准的构建

3.1 医学 VQA 中的多层次能力

3.2 MLe-VQA 数据集

3.3 MLe-Bench 基准

4. 模型架构

4.1 概述

4.2 注意力驱动的 Token 选择器

4.3 上下文合器

4.4 训练策略

5. 实验

5.1 实验设置

5.2 与现有模型对比

5.3 消融实验

5.4 推理能力分析

6. 局限性

医学视觉问答（Medical Visual Question Answering, MVQA）要求对医学图像和问题有深入理解，以提供可靠答案。现有MVQA模型由于数据集的不完备和架构简单，往往忽略 多层次渐进能力，如识别（Recognition）、细节（Details）、诊断（Diagnosis）、知识（Knowledge）和推理（Reasoning）。

为此，本文提出 多层次视觉语言模型（Multi-level Visual Language Model，MLeVLM），通过构建高质量的多层次指令数据集 MLe-VQA 以及设计多层次特征对齐模块（multi-level feature alignment，MLFA）提升 MVQA 性能。

实验结果表明，MLeVLM 在自构的基准 MLe-Bench 上超越现有医学多模态大语言模型。

医学视觉问答（Medical Visual Question Answering），多层次渐进能力（Multi-level Progressive Capabilities），多模态大语言模型（Multimodal Large Language Model），特征对齐（Feature Alignment）

多模态大语言模型（MLLM）通过结合视觉编码器和大语言模型（LLM），实现图像和文本的联合理解。例如：

Flamingo：使用视觉编码器提取视觉特征，并通过跨模态注意力融合视觉和语言信息。
BLIP2：采用 Q-Former 连接冻结的 LLM 和视觉编码器。
MiniGPT-4 和 LLaVA：冻结视觉编码器，仅训练轻量级的映射层或直接训练 LLM。

医学领域的 MLLM 如 LLaVA-Med 和 Med-Flamingo 将通用领域的 MLLM 迁移到医学领域，利用医学图像-文本对进行微调。Med-PaLM 使用大规模医学多模态数据集进行训练，旨在提升医学领域的视觉问答能力

上一篇医学上ACL是什么齐鲁医学前交叉韧带(ACL)损伤后的康复

下一篇医学上ipc是什么1月27日，邀您共享 “医创新·见未来”2024全球健康产业创新大会！

医学上ACL是什么（2024｜ACL｜北大，MLeVLM，多层特征对齐）基于 MLLM 提升医学视觉问答的多层渐进能力

相关推荐

热门文章