当前位置: 网站首页 >AI教程资讯 >正文

DoraCycle – 新加坡国立大学推出多模态领域适应的统一生成模型

来源:爱论文 时间:2025-04-10 16:13:23

DoraCycle是什么

DoraCycle 是新加坡国立大学 Show Lab 推出多模态领域适应的统一生成模型,通过两个多模态循环(text-to-image-to-text 和 image-to-text-to-image)实现不同模态间的信息转换与对齐,基于统一生成模型学习的双向映射,以非配对数据进行领域适配训练,无需大量标注数据。模型通过循环端点的交叉熵损失优化,促进自我进化,适应特定领域。

DoraCycle

DoraCycle的主要功能

无配对数据的领域适应:通过循环一致性学习,DoraCycle首次实现了使用无配对数据进行生成模型的领域适应,显著降低了数据获取成本。灵活的任务适应性:DoraCycle能处理无需成对知识的任务(如风格化),能有效结合少量配对数据完成需要新知识的任务(如身份生成)。

DoraCycle的技术原理

多模态循环一致性学习:DoraCycle 集成了两个多模态循环:文本到图像再到文本(T cycle) 和 图像到文本再到图像(I cycle)。这两个循环利用预训练的统一生成模型(如视觉-语言对齐模型)进行跨模态映射。T cycle:从输入文本序列开始,模型先将其转换为图像表示,再将生成的图像转换回文本序列,通过计算生成文本与原始文本之间的交叉熵损失来优化模型。I cycle:从输入图像开始,先将其转换为文本描述,再将文本描述转换回图像,通过计算生成图像与原始图像之间的交叉熵损失来优化模型。跨模态对齐的自监督学习:DoraCycle 基于统一生成模型学习的视觉和语言之间的双向映射。通过这两个循环,数据可以在相同模态内保持,施加对过程中引入偏差的约束。使模型能通过自监督学习,实现视觉和语言之间的跨模态对齐。训练稳定性增强:在多步推理过程中,为了避免梯度爆炸问题,DoraCycle 采用了以下技术:梯度裁剪:避免两个循环的优化方向冲突,从而提高训练的稳定性。EMA 模型:维护一个缓慢更新的指数移动平均(EMA)模型,用于推理以生成伪数据,增强伪数据生成的稳定性。

DoraCycle的项目地址

Github仓库:https://github.com/showlab/DoraCyclearXiv技术论文:https://arxiv.org/pdf/2503.03651

DoraCycle的应用场景

风格化设计:DoraCycle 可以用于生成符合特定风格的图像和文本内容。虚拟角色生成:在虚拟角色设计中,DoraCycle 可以结合少量配对数据和大规模无配对数据,生成具有特定身份和风格的虚拟角色。个性化广告内容:DoraCycle 可以根据品牌风格和目标受众生成个性化的广告图像和文案。个性化学习材料:DoraCycle 可以根据学生的学习风格和偏好生成个性化的学习材料。
上一篇:IMAGPose – 南京理工大学推出姿态引导图像生成的统一框架
相关资讯 更多+
  • DoraCycle – 新加坡国立大学推出多模态领域适应的统一生成模型
    DoraCycle – 新加坡国立大学推出多模态领域适应的统一生成模型

    DoraCycle 是新加坡国立大学 Show Lab 推出多模态领域适应的统一生成模型,通过两个多模态循环(text-to-image-to-text 和 image-to-text-to-image)实现不同模态间的信息转换与对齐,基于统一生成模型学习的双向映射,以非配对数据进行领域适配训练,无需大量标注数据。

    AI教程资讯 2023-04-14

  • IMAGPose – 南京理工大学推出姿态引导图像生成的统一框架
    IMAGPose – 南京理工大学推出姿态引导图像生成的统一框架

    IMAGPose 是南京理工大学推出的用于人体姿态引导图像生成的统一条件框架。解决传统方法在姿态引导的人物图像生成中存在的局限性,如无法同时生成多个不同姿态的目标图像、从多视角源图像生成目标图像受限,以及使用冻结的图像编码器导致人物图像细节信息丢失等问题。

    AI教程资讯 2023-04-14

  • Heygem – 硅基智能推出的开源数字人模型
    Heygem – 硅基智能推出的开源数字人模型

    Heygem 是硅基智能推出的开源数字人模型,专为 Windows 系统设计。基于先进的AI技术,仅需 1 秒视频或 1 张照片,能在 30 秒内完成数字人形象和声音克隆,在 60 秒内合成 4K 超高清视频。Heygem支持多语言输出、多表情动作,具备 100% 口型匹配能力,在复杂光影或遮挡场景下能保持高度逼真的效果。

    AI教程资讯 2023-04-14

  • LanDiff – 高质量文本到视频生成的混合框架
    LanDiff – 高质量文本到视频生成的混合框架

    LanDiff是用于高质量的文本到视频(T2V)生成的创新混合框架,结合了自回归语言模型(LLM)和扩散模型(Diffusion Model)的优势,通过粗到细的生成方式,有效克服了单一方法在语义理解和视觉质量上的局限性。

    AI教程资讯 2023-04-14

最新录入 更多+
确定