MoMask是什么
MoMask是创新的3D人体动作生成工具,通过生成式掩码建模技术,能根据文本描述生成高质量的3D人体动作。MoMask采用分层量化方案,将人体运动表示为多层离散的运动标记,结合掩码Transformer和残差Transformer来生成动作序列。模型在文本到动作生成任务上表现出色,FID指标达到0.045(HumanML3D数据集),显著优于其他方法。MoMask可无缝应用于相关任务,如文本引导的时序修复,无需额外微调。

来源:爱论文 时间:2025-03-20 12:21:42
MoMask是创新的3D人体动作生成工具,通过生成式掩码建模技术,能根据文本描述生成高质量的3D人体动作。MoMask采用分层量化方案,将人体运动表示为多层离散的运动标记,结合掩码Transformer和残差Transformer来生成动作序列。模型在文本到动作生成任务上表现出色,FID指标达到0.045(HumanML3D数据集),显著优于其他方法。MoMask可无缝应用于相关任务,如文本引导的时序修复,无需额外微调。
MoMask是创新的3D人体动作生成工具,通过生成式掩码建模技术,能根据文本描述生成高质量的3D人体动作。MoMask采用分层量化方案,将人体运动表示为多层离散的运动标记,结合掩码Transformer和残差Transformer来生成动作序列。
AI教程资讯
2023-04-14
UltraMem 是字节跳动豆包大模型团队提出的全新超稀疏模型架构,解决传统 MoE 架构在推理时的高额访存问题。架构通过优化内存访问和计算效率,显著降低推理成本,推理速度较 MoE 提升了2-6倍,成本最高可降低83%。
AI教程资讯
2023-04-14
AxBench 是斯坦福大学推出的评估语言模型(LM)控制方法的基准测试框架。基于合成数据生成训练和评估数据,比较不同模型控制技术在概念检测和模型转向两个方面的表现。概念检测任务基于标记的合成数据评估模型对特定概念的识别能力。
AI教程资讯
2023-04-14
Lumina-Video是上海 AI Lab 和香港中文大学推出的视频生成框架,基于Next-DiT架构,针对视频生成中的时空复杂性进行优化。基于多尺度Next-DiT架构,用不同大小的patchify层提升效率和灵活性,基于运动分数作为条件输入,直接控制生成视频的动态程度。
AI教程资讯
2023-04-14