Show-o是什么
Show-o是集成了多模态理解和生成的统一Transformer模型。通过结合自回归和离散扩散建模,能灵活处理包括视觉问答、文本到图像生成、文本引导的修复和扩展,混合模态生成在内的广泛视觉语言任务。Show-o模型在多模态理解和生成基准测试中展现出与现有专门模型相当或更优的性能,能减少图像生成所需的采样步骤,提高效率。Show-o支持多种下游应用,如文本引导的图像修复和扩展,无需额外微调。

来源:爱论文 时间:2025-02-13 11:20:50
Show-o是集成了多模态理解和生成的统一Transformer模型。通过结合自回归和离散扩散建模,能灵活处理包括视觉问答、文本到图像生成、文本引导的修复和扩展,混合模态生成在内的广泛视觉语言任务。Show-o模型在多模态理解和生成基准测试中展现出与现有专门模型相当或更优的性能,能减少图像生成所需的采样步骤,提高效率。Show-o支持多种下游应用,如文本引导的图像修复和扩展,无需额外微调。
Show-o是集成了多模态理解和生成的统一Transformer模型。通过结合自回归和离散扩散建模,能灵活处理包括视觉问答、文本到图像生成、文本引导的修复和扩展,混合模态生成在内的广泛视觉语言任务。Show-o模型在多模态理解和生成基准测试中展现出与现有专门模型相当或更优的性能,能减少图像生成所需的采样步骤,提高效率。
AI教程资讯
2023-04-14
MimicTalk是浙江大学和字节跳动共同研发推出的,基于NeRF(神经辐射场)技术,能在极短的时间内,仅需15分钟训练出个性化和富有表现力的3D说话人脸模型。MimicTalk提高了训练效率,基于高效的微调策略和具有上下文学习能力的人脸动作生成模型,显著提升生成视频的质量。
AI教程资讯
2023-04-14
Wonder Animation 是 Autodesk 旗下 Wonder Dynamics 推出的创新 AI 技术,Wonder Animation测试版现已上线Wonder Studio。Wonder Animation基于 Video to 3D Scene 技术将视频序列转换成 3D 动画场景,加速动画电影制作。
AI教程资讯
2023-04-14
TimeSuite是上海AI Lab推出的新型框架,能提升多模态大型语言模型(MLLMs)在长视频理解任务中的表现。基于引入高效的长视频处理框架、高质量的视频数据集TimePro用在定位调整,及名为Temporal Grounded Caption的指令调谐任务,明确地将定位监督纳入传统问答格式中。
AI教程资讯
2023-04-14