SlideChat – 上海AI Lab联合多所高校和机构推出的视觉语言助手-爱论文

SlideChat是什么

SlideChat是上海AI实验室、厦门大学、华东师范大学等机构推出的，首个能理解千兆像素级别全切片图像的视觉语言助手。SlideChat能生成详尽的全切片图像描述，针对多样化的病理场景提供具有上下文关联的复杂指令响应。基于训练，SlideChat在多个临床任务中展现出卓越的性能，包括显微镜检查、诊断等。SlideChat用大规模的多模态指令数据集SlideInstruction和评估基准SlideBench，后者包含多个子集，覆盖21种不同的临床任务。

SlideChat的主要功能

全切片图像理解：处理和理解千兆像素级别的全切片病理图像（WSIs），提供对图像的深入分析。多模态对话能力：支持与用户进行多模态对话，理解自然语言指令，结合视觉信息提供响应。复杂指令响应：响应和执行复杂的视觉查询和病理学相关的指令。临床任务覆盖：在多种临床设置中，如显微镜检查和诊断，展现出卓越的性能，覆盖21种不同的临床任务。

SlideChat的技术原理

图像分割：将全切片图像分割成224×224像素的小块（patches），便于计算处理。局部编码器：每个图像块基于局部编码器转换为视觉嵌入，捕获局部特征。幻灯片级编码器：用幻灯片级编码器处理局部编码器的输出，生成包含全局上下文信息的上下文嵌入。多模态投影：多模态投影器将视觉特征映射到与大型语言模型（LLM）对齐的统一空间。两阶段训练：跨域对齐：在第一阶段，模型学习将LLM的词嵌入与从WSI提取的视觉特征对齐。视觉指令学习：在第二阶段，模型学习如何准确响应特定于WSI的领域问题。

SlideChat的项目地址

项目官网：uni-medical.github.io/SlideChat.github.ioHuggingFace模型库：https://huggingface.co/datasets/General-Medical-AI/SlideBencharXiv技术论文：https://arxiv.org/pdf/2410.11761

SlideChat的应用场景

病理诊断辅助：帮助病理学家分析和解释全切片图像，辅助诊断各种疾病，包括癌症等严重病理状况。教育和培训：在医学教育中，作为教学工具，帮助学生和住院医师学习如何解读病理切片，提高诊断技能。研究和开发：研究人员探索新的生物标志物，进行疾病亚型分类，及预测疾病进展和患者预后。临床决策支持：集成到临床工作流程中，提供实时的病理分析，帮助医生做出更准确的治疗决策。质量控制和标准化：在病理实验室中，确保诊断的一致性和准确性，基于自动化分析减少人为错误。