TITAN是什么
TITAN是哈佛医学院研究团队开发的多模态全切片病理基础模型,通过视觉自监督学习和视觉-语言对齐预训练,能在无需微调或临床标签的情况下提取通用的切片表示,生成病理报告。它使用了335,645张全切片图像(WSIs)以及相应的病理报告,结合了423,122个由多模态生成型AI协作者生成的合成字幕。TITAN在多种临床任务中表现出色,包括线性探测、少样本和零样本分类、罕见癌症检索、跨模态检索和病理报告生成。

来源:爱论文 时间:2025-01-15 22:27:40
TITAN是哈佛医学院研究团队开发的多模态全切片病理基础模型,通过视觉自监督学习和视觉-语言对齐预训练,能在无需微调或临床标签的情况下提取通用的切片表示,生成病理报告。它使用了335,645张全切片图像(WSIs)以及相应的病理报告,结合了423,122个由多模态生成型AI协作者生成的合成字幕。TITAN在多种临床任务中表现出色,包括线性探测、少样本和零样本分类、罕见癌症检索、跨模态检索和病理报告生成。
TITAN是哈佛医学院研究团队开发的多模态全切片病理基础模型,通过视觉自监督学习和视觉-语言对齐预训练,能在无需微调或临床标签的情况下提取通用的切片表示,生成病理报告。它使用了335,645张全切片图像(WSIs)以及相应的病理报告,结合了423,122个由多模态生成型AI协作者生成的合成字幕。
AI教程资讯
2023-04-14
TANGOFLUX是高效的文本到音频生成模型,是新加坡科技设计大学(SUTD)和NVIDIA共同推出的。模型拥有约5 15亿参数,能在单个A40 GPU上仅用3 7秒生成长达30秒的44 1kHz音频。TANGOFLUX用CLAP-Ranked Preference Optimization(CRPO)框架,基于迭代生成和优化偏好数据来提升模型的音频对齐能力。
AI教程资讯
2023-04-14
MMedAgent是专为医疗领域设计的多模态AI智能体,通过整合各种开源医疗模型来管理多种医疗任务。系统包括一个指令调整的多模态大型语言模型(MLLM),作为行动规划器和结果聚合器,以及一套为代理量身定制的医疗工具集合,每个工具都针对医疗领域的特定任务。
AI教程资讯
2023-04-14
VITRON是Skywork AI、新加坡国立大学和南洋理工大学联合推出的像素级视觉大型语言模型(LLM),能全面理解和处理静态图像与动态视频,对图像和视频进行理解、生成、分割和编辑。VITRON结合前端的视觉编码器和后端的视觉专家系统,支持从视觉理解到视觉生成的多种任务。
AI教程资讯
2023-04-14