MMedAgent – 专为医疗领域设计的多模态AI智能体，管理多种医疗任务-爱论文

MMedAgent是什么

MMedAgent是专为医疗领域设计的多模态AI智能体，通过整合各种开源医疗模型来管理多种医疗任务。系统包括一个指令调整的多模态大型语言模型（MLLM），作为行动规划器和结果聚合器，以及一套为代理量身定制的医疗工具集合，每个工具都针对医疗领域的特定任务。MMedAgent能处理包括MRI、CT、X射线等多种医学成像模式，支持临床实践中遇到的多种数据类型。通过理解用户指令和医学影像，生成格式化指令调用特定工具，聚合工具的输出以准确、全面地回复用户。MMedAgent在多个医疗任务上的性能优于现有的开源方法，甚至超过了闭源模型GPT-4o。

MMedAgent的主要功能

多模态任务处理：MMedAgent能处理包括接地、分割、分类、医学报告生成（MRG）和检索增强生成（RAG）在内的多种语言和多模态任务。医疗影像支持：系统支持多种医学成像模式，如MRI、CT和X射线，适应临床实践中遇到的各种数据类型。工具集成与调用：MMedAgent集成了多个工具，涵盖七个代表性的医疗任务，能根据用户指令选择合适的工具进行调用。指令微调：MMedAgent通过创建指令调整数据集，训练多模态大型语言模型（MLLM）作为动作规划器，理解和执行用户指令。结果聚合：MLLM作为结果聚合器，将工具的输出与用户的指令和图像结合，生成最终答案。端到端训练：MMedAgent通过自回归目标对生成的序列进行端到端训练，确保模型能使用正确的工具并根据工具结果回答问题。

MMedAgent的技术原理

系统架构：MMedAgent由两个主要部分组成：一个指令调整的多模态大型语言模型（MLLM），作为行动规划器和结果聚合器。为代理量身定制的医疗工具集合，每个工具都针对医疗领域的特定任务。工作流程：MMedAgent的工作流程包括四个步骤：用户提供指令和医疗图像。MLLM理解指令和图像，生成格式化指令以调用特定工具。执行工具并返回结果。MLLM将工具的输出与用户指令和图像结合，生成最终答案。指令微调：MMedAgent采用统一的对话格式来确保其作为行动规划器和结果聚合器的角色。在接收到用户输入后，MMedAgent生成三个部分：Thought（思想）：确定是否需要外部工具。API Name和API Params（API名称和参数）：API调用的名称和参数。Value（价值）：由MLLM聚合的工具输出和自然语言响应。自回归目标训练：MMedAgent通过自回归目标对生成的序列进行端到端训练，确保模型能够使用正确的工具并根据工具的结果回答问题。

MMedAgent的项目地址

Github仓库：https://github.com/Wangyixinxin/MMedAgentarXiv技术论文：https://arxiv.org/pdf/2407.02483

MMedAgent的应用场景

视觉问答（VQA）：MMedAgent能处理与医学影像相关的问题，提供基于图像内容的答案，支持MRI、CT、X射线、组织学和大体病理学等多种影像模态。分类任务：通过使用BiomedCLIP工具，MMedAgent能进行零样本和细粒度的医学图像分类。定位和分割任务：MMedAgent集成了Grounding DINO和MedSAM工具，用于医学影像中的定位和分割任务，包括基于边界框提示的分割（Segmentation）和基于文本提示的分割（G-Seg）。医学报告生成（MRG）：利用ChatCAD工具，MMedAgent能从胸部X光图像中生成准确的医学报告。检索增强生成（RAG）：MMedAgent通过ChatCAD+工具，能从外部数据源获取最相关的信息，支持医疗检索过程。跨模态医学任务处理：MMedAgent能无缝利用各种医疗工具来处理跨不同成像模态的广泛医学任务。