当前位置: 网站首页 >AI教程资讯 >正文

VisionFM – 通用眼科AI大模型,具备少样本多种疾病诊断能力

来源:爱论文 时间:2025-01-22 10:31:48

VisionFM是什么

VisionFM(伏羲慧眼)是多模态多任务的视觉基础模型,专为通用眼科人工智能而设计。通过预训练3.4百万张来自560,457个个体的眼科图像,覆盖广泛的眼科疾病、成像模态、设备和人群统计数据。VisionFM能处理包括眼底摄影、光学相干断层扫描(OCT)、荧光素眼底血管造影(FFA)等在内的八种常见眼科成像模态,应用于眼科疾病识别、疾病进展预测、疾病表型细分以及全身生物标志物和疾病预测等多种眼科AI任务。在诊断12种常见眼科疾病方面超越了具有基础和中级水平的眼科医生,在大规模眼科疾病诊断基准数据库上超越了强大的基线深度神经网络。VisionFM还表现出对新眼科模态、疾病谱系和成像设备的强泛化能力。

VisionFM的主要功能

疾病筛查和诊断:VisionFM能够筛查和诊断多种眼科疾病,包括但不限于糖尿病视网膜病变、青光眼、老年性黄斑变性等。疾病预后:模型还能预测疾病的发展趋势和预后。疾病表型细分:VisionFM可以进行疾病表型的亚分类,包括病变、血管和层的分割,以及地标检测。全身生物标志物和疾病预测:除了眼部疾病,VisionFM还能从眼部图像中预测全身的生物标志物和疾病。多模态处理能力:VisionFM能够处理包括眼底摄影、光学相干断层扫描(OCT)、荧光素眼底血管造影(FFA)在内的八种常见眼科成像模态。模态无关的诊断:VisionFM支持模态无关的诊断,即可以用单一解码器诊断不同成像模态中的多种眼科疾病。少样本学习:VisionFM展现出少样本学习的能力,能够以高准确度诊断新疾病,即使只有少量的标注样本。强大的泛化能力:模型对新的眼科模态、疾病谱系和成像设备展现出强大的泛化能力。合成数据增强学习:VisionFM还能利用合成的眼科成像数据来增强其表示学习能力,从而在下游眼科AI任务上取得显著的性能提升。

VisionFM的技术原理

大规模预训练:VisionFM是一个基于深度学习的视觉基础模型,它通过预训练3.4百万张来自560,457个个体的眼科图像,覆盖广泛的眼科疾病、成像模态、成像设备和人口统计学数据。多模态多任务学习:VisionFM能够处理多种眼科成像模态,包括眼底摄影、OCT、FFA等,并应用于疾病筛查、诊断、疾病预后、疾病表型细分等多种眼科AI任务。专家级智能和准确性:预训练后的VisionFM在多个眼科AI应用中展现出专家级别的智能性和准确性,其全科智能在联合诊断12种常见眼科疾病方面超越了初级和中级眼科医生。

VisionFM的项目地址

Github仓库:https://github.com/ABILab-CUHK/VisionFMarXiv技术论文:https://arxiv.org/pdf/2310.04992

VisionFM的应用场景

眼科临床任务:VisionFM能帮助解决眼科临床任务,特别是在疾病筛查和诊断方面。多种眼科疾病诊断:该模型在诊断和预测多种眼科疾病方面表现出色,包括糖尿病视网膜病变、青光眼、老年性黄斑变性等。基层医疗环境:该模型在影像资源有限的基层医疗环境中可以发挥重要作用,减轻医生的工作负担。低眼科医生密度地区:VisionFM对于眼科医生密度低的地区和国家尤其有用。教育和培训:VisionFM可以作为资深眼科医生,培训初级眼科从业者,其在眼科影像和疾病诊断方面拥有广泛的知识。辅助生成诊断报告:该模型可以与大型语言模型(LLM)集成,生成诊断报告,完成眼科疾病诊断的闭环。
上一篇:MetaMorph – 统一多模态理解与生成大模型,基于VPiT 预测多模态 token
相关资讯 更多+
  • VisionFM – 通用眼科AI大模型,具备少样本多种疾病诊断能力
    VisionFM – 通用眼科AI大模型,具备少样本多种疾病诊断能力

    VisionFM(伏羲慧眼)是多模态多任务的视觉基础模型,专为通用眼科人工智能而设计。通过预训练3 4百万张来自560,457个个体的眼科图像,覆盖广泛的眼科疾病、成像模态、设备和人群统计数据。VisionFM能处理包括眼底摄影、光学相干断层扫描(OCT)、荧光素眼底血管造影(FFA)等在内的八种常见眼科成像模态,应用于眼科疾病识别、疾病进展预测、疾病表型细分以及全身生物标志物和疾病预测等多种眼科AI任务。

    AI教程资讯 2023-04-14

  • MetaMorph – 统一多模态理解与生成大模型,基于VPiT 预测多模态 token
    MetaMorph – 统一多模态理解与生成大模型,基于VPiT 预测多模态 token

    MetaMorph是多模态大模型(MLLM),通过指令微调(Instruction Tuning)实现视觉理解和生成。它提出了一种名为Visual-Predictive Instruction Tuning(VPiT)的方法,使得预训练的大型语言模型(LLM)能够快速转变为一个统一的自回归模型,能生成文本和视觉token。

    AI教程资讯 2023-04-14

  • AgentScope – 阿里开源的多智能体开发平台
    AgentScope – 阿里开源的多智能体开发平台

    AgentScope是阿里巴巴集团开源的多智能体开发平台,帮助开发者轻松构建和部署多智能体应用。AgentScope提供高易用性、高鲁棒性和分布式支持,内置多种模型API和本地模型部署选项,覆盖聊天、图像合成、文本嵌入等多种任务。

    AI教程资讯 2023-04-14

  • LeviTor – 南大联合蚂蚁等机构开源的3D目标轨迹控制视频合成技术
    LeviTor – 南大联合蚂蚁等机构开源的3D目标轨迹控制视频合成技术

    LeviTor是南京大学、蚂蚁集团、浙江大学等机构推出的图像到视频合成技术,结合深度信息和K-means聚类点控制视频中3D物体的轨迹,无需显式的3D轨迹跟踪。LeviTor用高质量的视频对象分割数据集进行训练,有效捕捉复杂场景中的物体运动和交互,基于用户友好的推理流程简化3D轨迹输入,让视频生成技术更加先进和易用。

    AI教程资讯 2023-04-14

最新录入 更多+
确定