MotionCLR – AI动作编辑模型，根据文本提示生成相应的动作序列-爱论文

MotionCLR是什么

MotionCLR是基于注意力机制的人体动作生成和编辑模型，能根据文本提示生成动作，支持用户进行交互式编辑，如动作强调、减弱、替换、擦除和风格转移。MotionCLR基于自注意力和交叉注意力机制理解和编辑动作，支持多样化的动作编辑任务，如动作强调/减弱、原地动作替换、基于示例的动作生成等。模型在HumanML3D数据集上表现良好，生成的动作质量高，与文本描述的对齐精确，在多样性、可解释性和编辑能力方面均达到先进水平。

MotionCLR的主要功能

文本驱动的动作生成：根据用户提供的文本描述生成相应的动作序列。动作强调与减弱：调整文本中动作关键词的权重增强或减弱生成的动作。原地动作替换：支持用户在保持其他动作不变的情况下，替换特定动作。基于示例的动作生成：生成与给定示例动作相似的新动作序列。动作风格转移：将一种动作的风格应用到另一种动作上，生成具有新风格特征的动作序列。动作序列编辑：支持对动作序列进行更复杂的编辑，如调整动作顺序、改变动作持续时间等。

MotionCLR的技术原理

自注意力机制：捕捉动作序列内部各帧之间的时序关系，确保动作的连贯性和自然性。交叉注意力机制：建立文本描述与动作序列之间的细粒度对应关系，让生成的动作精确地反映文本的内容。扩散模型：用扩散模型逐步改进生成的动作，让模型更加精细和逼真。训练自由的编辑：模型支持在不重新训练的情况下进行动作编辑，提高编辑的便捷性和实用性。注意力图操作：基于直接操作注意力图来实现动作编辑，如调整注意力权重改变动作的强调或减弱。

MotionCLR的项目地址

项目官网：lhchen.top/MotionCLRGitHub仓库：https://github.com/IDEA-Research/MotionCLRarXiv技术论文：https://arxiv.org/pdf/2410.18977在线体验Demo：https://huggingface.co/spaces/EvanTHU/MotionCLR

MotionCLR的应用场景

游戏开发：生成游戏角色动画，提供自然和多样化的角色动作。动画制作：辅助动画师快速生成或修改角色动作，提高动画制作效率。虚拟现实（VR）和增强现实（AR）：生成逼真的用户动作，用在VR/AR互动体验。电影和电视制作：用在预可视化动作场景或为后期制作提供动作参考。人机交互：在需要人体动作作为输入的交互系统中，如动作捕捉和游戏控制。