Motion Anything – 腾讯联合京东等高校推出的多模态运动生成框架-爱论文

Motion Anything是什么

Motion Anything 是澳大利亚国立大学、悉尼大学、腾讯、麦吉尔大学、京东等机构推出的多模态运动生成框架，根据文本、音乐或两者的组合生成高质量、可控的人类运动。Motion Anything引入基于注意力的掩码建模方法，实现对运动序列中关键帧和动作的细粒度控制，解决现有方法无法根据条件优先生成动态内容的问题。框架基于时间自适应和空间对齐变换器，有效整合多种模态条件，提升生成运动的连贯性和多样性。同时推出 Text-Music-Dance (TMD) 数据集，包含 2153 对文本、音乐和舞蹈的配对样本，为多模态运动生成的研究提供了新的基准。

Motion Anything的主要功能

多模态条件下的运动生成：根据文本描述、音乐或两者的组合生成高质量的人类运动。细粒度控制：基于注意力机制，对运动的关键帧和动作进行细粒度控制，实现更精准的生成效果。动态优先级调整：根据给定条件（如文本或音乐）动态调整运动生成的优先级，优先生成与条件最相关的动态帧和身体部位。跨模态对齐：将文本、音乐和运动在时间和空间维度上进行有效对齐，提升生成运动的连贯性和一致性。

Motion Anything的技术原理

基于注意力的掩码建模：基于注意力机制选择与条件（文本或音乐）最相关的运动部分进行掩码。在生成过程中，模型优先恢复被掩码的关键帧和动作，实现对动态内容的聚焦。时间自适应变换器：根据条件的模态（文本、音乐或两者的组合），动态调整注意力计算。让运动的关键帧与文本中的关键词或音乐的节拍对齐，提升时间维度上的连贯性。空间对齐变换器：将条件和运动嵌入重新排列，暴露空间维度。恢复被掩码的关键动作，确保运动与条件在空间上的一致性。多模态条件编码：同时处理文本和音乐等多种模态条件，基于自适应编码器将不同模态的信息整合到运动生成中。实现多模态条件下的可控运动生成，提升生成效果。数据集支持：提供新的 Text-Music-Dance (TMD) 数据集，包含 2153 对文本、音乐和舞蹈的配对样本，为多模态运动生成提供丰富的数据支持。

Motion Anything的项目地址

项目官网：https://steve-zeyu-zhang.github.io/MotionAnything/GitHub仓库：https://github.com/steve-zeyu-zhang/MotionAnythingarXiv技术论文：https://arxiv.org/pdf/2503.06955

Motion Anything的应用场景

影视动画：快速生成高质量动画，减少制作成本，提升视觉效果。VR/AR：为虚拟角色生成逼真动作，增强沉浸感，实现自然交互。游戏开发：根据剧情或音乐生成角色动作，提升游戏的趣味性和流畅性。人机交互：生成自然动作，让机器人与人类交互更友好，实现语音指令驱动的动作生成。教育与培训：生成标准动作示范，辅助体育、舞蹈等教学，提升培训效果。

Motion Anything &#8211; 腾讯联合京东等高校推出的多模态运动生成框架

Motion Anything是什么

Motion Anything的主要功能

Motion Anything的技术原理

Motion Anything的项目地址

Motion Anything的应用场景

Motion Anything – 腾讯联合京东等高校推出的多模态运动生成框架