当前位置: 网站首页 >AI教程资讯 >正文

Motion Anything – 腾讯联合京东等高校推出的多模态运动生成框架

来源:爱论文 时间:2025-04-12 15:09:05

Motion Anything是什么

Motion Anything 是澳大利亚国立大学、悉尼大学、腾讯、麦吉尔大学、京东等机构推出的多模态运动生成框架,根据文本、音乐或两者的组合生成高质量、可控的人类运动。Motion Anything引入基于注意力的掩码建模方法,实现对运动序列中关键帧和动作的细粒度控制,解决现有方法无法根据条件优先生成动态内容的问题。框架基于时间自适应和空间对齐变换器,有效整合多种模态条件,提升生成运动的连贯性和多样性。同时推出 Text-Music-Dance (TMD) 数据集,包含 2153 对文本、音乐和舞蹈的配对样本,为多模态运动生成的研究提供了新的基准。

Motion Anything

Motion Anything的主要功能

多模态条件下的运动生成:根据文本描述、音乐或两者的组合生成高质量的人类运动。细粒度控制:基于注意力机制,对运动的关键帧和动作进行细粒度控制,实现更精准的生成效果。动态优先级调整:根据给定条件(如文本或音乐)动态调整运动生成的优先级,优先生成与条件最相关的动态帧和身体部位。跨模态对齐:将文本、音乐和运动在时间和空间维度上进行有效对齐,提升生成运动的连贯性和一致性。

Motion Anything的技术原理

基于注意力的掩码建模:基于注意力机制选择与条件(文本或音乐)最相关的运动部分进行掩码。在生成过程中,模型优先恢复被掩码的关键帧和动作,实现对动态内容的聚焦。时间自适应变换器:根据条件的模态(文本、音乐或两者的组合),动态调整注意力计算。让运动的关键帧与文本中的关键词或音乐的节拍对齐,提升时间维度上的连贯性。空间对齐变换器:将条件和运动嵌入重新排列,暴露空间维度。恢复被掩码的关键动作,确保运动与条件在空间上的一致性。多模态条件编码:同时处理文本和音乐等多种模态条件,基于自适应编码器将不同模态的信息整合到运动生成中。实现多模态条件下的可控运动生成,提升生成效果。数据集支持:提供新的 Text-Music-Dance (TMD) 数据集,包含 2153 对文本、音乐和舞蹈的配对样本,为多模态运动生成提供丰富的数据支持。

Motion Anything的项目地址

项目官网:https://steve-zeyu-zhang.github.io/MotionAnything/GitHub仓库:https://github.com/steve-zeyu-zhang/MotionAnythingarXiv技术论文:https://arxiv.org/pdf/2503.06955

Motion Anything的应用场景

影视动画:快速生成高质量动画,减少制作成本,提升视觉效果。VR/AR:为虚拟角色生成逼真动作,增强沉浸感,实现自然交互。游戏开发:根据剧情或音乐生成角色动作,提升游戏的趣味性和流畅性。人机交互:生成自然动作,让机器人与人类交互更友好,实现语音指令驱动的动作生成。教育与培训:生成标准动作示范,辅助体育、舞蹈等教学,提升培训效果。
上一篇:AI-Researcher – 香港大学推出的开源自动化科学研究工具
相关资讯 更多+
  • Motion Anything – 腾讯联合京东等高校推出的多模态运动生成框架
    Motion Anything – 腾讯联合京东等高校推出的多模态运动生成框架

    Motion Anything 是澳大利亚国立大学、悉尼大学、腾讯、麦吉尔大学、京东等机构推出的多模态运动生成框架,根据文本、音乐或两者的组合生成高质量、可控的人类运动。Motion Anything引入基于注意力的掩码建模方法,实现对运动序列中关键帧和动作的细粒度控制,解决现有方法无法根据条件优先生成动态内容的问题。

    AI教程资讯 2023-04-14

  • AI-Researcher – 香港大学推出的开源自动化科学研究工具
    AI-Researcher – 香港大学推出的开源自动化科学研究工具

    AI-Researcher 是香港大学数据科学实验室推出的开源自动化科学研究工具,基于大型语言模型(LLM)代理实现从研究想法到论文发表的全流程自动化。AI-Researcher 支持用户在两种模式下操作:一是提供详细的研究想法描述,系统据此生成实现策略;二是提供参考文献,系统自主生成创新想法实施。

    AI教程资讯 2023-04-14

  • Open-Sora 2.0 – 潞晨科技开源的AI视频生成模型
    Open-Sora 2.0 – 潞晨科技开源的AI视频生成模型

    Open-Sora 2 0 是潞晨科技推出的全新开源SOTA(State-of-the-Art)视频生成模型。Open-Sora 2 0 用 20 万美元(224 张 GPU)成功训练出 11B 参数的商业级模型,相比传统高性能视频生成模型大幅降低了训练成本。

    AI教程资讯 2023-04-14

  • Gemini Robotics – 谷歌 DeepMind 推出的具身智能大模型
    Gemini Robotics – 谷歌 DeepMind 推出的具身智能大模型

    Gemini Robotics 是谷歌 DeepMind 推出的基于 Gemini 2 0 的机器人项目,将大型多模态模型的能力引入物理世界。项目包含两个主要模型:Gemini Robotics-ER 和 Gemini Robotics。Gemini Robotics-ER 是增强版的视觉-语言模型(VLM),具备强大的具身推理能力,支持理解三维空间、物体检测、指向、轨迹和抓取预测等任务。

    AI教程资讯 2023-04-14

最新录入 更多+
确定