Infinity-MM是什么
Infinity-MM是智源研究院推出的千万级多模态指令数据集,包含4300万条样本,数据量达10TB。数据集经过质量过滤和去重,确保高质量和多样性,能提升开源视觉-语言模型(VLMs)的性能。智源推出基于开源VLMs的合成数据生成方法,进一步扩充数据集规模和多样性。基于Infinity-MM,智源成功训练20亿参数的多模态模型Aquila-VL-2B,在同规模模型中取得最先进的性能。

来源:爱论文 时间:2025-02-10 12:21:53
Infinity-MM是智源研究院推出的千万级多模态指令数据集,包含4300万条样本,数据量达10TB。数据集经过质量过滤和去重,确保高质量和多样性,能提升开源视觉-语言模型(VLMs)的性能。智源推出基于开源VLMs的合成数据生成方法,进一步扩充数据集规模和多样性。基于Infinity-MM,智源成功训练20亿参数的多模态模型Aquila-VL-2B,在同规模模型中取得最先进的性能。
Infinity-MM是智源研究院推出的千万级多模态指令数据集,包含4300万条样本,数据量达10TB。数据集经过质量过滤和去重,确保高质量和多样性,能提升开源视觉-语言模型(VLMs)的性能。智源推出基于开源VLMs的合成数据生成方法,进一步扩充数据集规模和多样性。
AI教程资讯
2023-04-14
FabricDiffusion是谷歌和卡内基梅隆大学共同推出的高保真度3D服装生成技术,能将现实世界中2D服装图像的纹理和印花高质量地转移到任意形状的3D服装模型上。FabricDiffusion基于去噪扩散模型和大规模合成数据集纠正输入纹理图像的失真,生成包括漫反射、粗糙度、法线和金属度在内的多种纹理贴图。
AI教程资讯
2023-04-14
HourVideo是斯坦福大学李飞飞和吴佳俊团队推出的长视频理解基准数据集,包含500个第一人称视角视频,时长20至120分钟,覆盖77种日常活动,能评估多模态模型对长视频的理解能力。
AI教程资讯
2023-04-14
App Intents是苹果推出的支持开发者在iOS、macOS等平台上集成Siri和Apple Intelligence的新框架,实现应用功能与系统体验(如Siri、Spotlight搜索、快捷指令)的无缝融合。App Intents基于定义应用意图、实体和选项,让用户能直接用Siri控制应用,搜索应用内容,创建自动化操作,提升应用的智能化和便捷性。
AI教程资讯
2023-04-14