当前位置: 网站首页 >AI教程资讯 >正文

Large Motion Model – 商汤科技联合南洋理工推出的统一多模态运动生成模型

来源:爱论文 时间:2025-01-17 11:51:29

Large Motion Model是什么

Large Motion Model(LMM)是统一的多模态运动生成模型,是新加坡南洋理工大学S-Lab和商汤科技研究团队共同推出的。LMM能处理包括文本到运动、音乐到舞蹈等多种运动生成任务,在多个基准测试中展现出与专家模型相媲美的性能。模型基于整合不同模态、格式和任务的数据集创建全面的MotionVerse数据集,采用创新的ArtAttention机制和预训练策略,实现对身体部位的精确控制和广泛的知识泛化。LMM在处理未见任务时展现出强大的泛化能力,为未来大型运动模型的研究提供新视角。

Large Motion Model

Large Motion Model的主要功能

多任务运动生成:能执行多种运动生成任务,如文本到运动、音乐到舞蹈、动作到运动等。数据集整合:创建MotionVerse数据集,基于整合不同模态、格式和任务的数据集,实现统一的运动表示。精确控制:采用ArtAttention机制,支持对不同身体部位进行精确控制,提高运动生成的精细度。泛化能力:展现出强大的泛化能力,在多种未见任务上进行有效的运动生成。多模态输入处理:同时处理多种模态输入,如文本、音乐、视频等,生成相应的运动输出。

Large Motion Model的技术原理

统一数据集(MotionVerse):基于统一的数据集MotionVerse,数据集包含多种任务和模态的运动数据,基于TOMATO表示法统一不同格式的运动数据。Diffusion Transformer骨干网络:基于Transformer架构的Diffusion模型,用去噪扩散概率模型(DDPM)进行高质量的运动序列生成。ArtAttention机制:设计一种新颖的注意力机制ArtAttention,机制结合身体部位感知建模,支持模型对不同身体部位进行独立的控制和学习。预训练策略:采用随机帧率和多种掩码技术的预训练策略,增强模型对不同数据源的学习能力和泛化能力。零样本学习:采用零样本方法生成长序列运动,让模型在没有额外样本的情况下生成运动。

Large Motion Model的项目地址

项目官网:https://mingyuan-zhang.github.io/projects/LMMGitHub仓库:https://github.com/mingyuan-zhang/LMMarXiv技术论文:https://arxiv.org/pdf/2404.01284在线体验Demo:https://huggingface.co/spaces/mingyuan/LMM

Large Motion Model的应用场景

动画和游戏制作:生成逼真的角色动画,减少手动动画制作的时间和成本,提高动画制作的效率。虚拟现实(VR)和增强现实(AR):在VR和AR应用中,生成与用户动作相匹配的虚拟角色动作,提升沉浸感。电影和视频制作:生成电影中的特殊效果,如模拟复杂的打斗场景或舞蹈动作,提高制作效率。运动分析和训练:分析运动员的动作,提供训练建议,或生成标准动作模板。机器人技术:教导机器人执行复杂的人类动作,提高机器人在服务、医疗或工业领域的应用能力。
上一篇:StereoCrafter – 腾讯开源将任意2D视频转为立体3D视频的框架
相关资讯 更多+
  • Large Motion Model – 商汤科技联合南洋理工推出的统一多模态运动生成模型
    Large Motion Model – 商汤科技联合南洋理工推出的统一多模态运动生成模型

    Large Motion Model(LMM)是统一的多模态运动生成模型,是新加坡南洋理工大学S-Lab和商汤科技研究团队共同推出的。LMM能处理包括文本到运动、音乐到舞蹈等多种运动生成任务,在多个基准测试中展现出与专家模型相媲美的性能。

    AI教程资讯 2023-04-14

  • StereoCrafter – 腾讯开源将任意2D视频转为立体3D视频的框架
    StereoCrafter – 腾讯开源将任意2D视频转为立体3D视频的框架

    StereoCrafter是腾讯AI Lab和ARC Lab共同推出的创新框架,能将单目视频(2D视频)转换为立体3D视频,满足日益增长的3D内容需求。StereoCrafter基于深度估计、视频splatting和立体视频修复三个核心步骤,实现高保真度的2D到3D视频转换。

    AI教程资讯 2023-04-14

  • AgiBot World – 智元机器人开源的百万真机数据集
    AgiBot World – 智元机器人开源的百万真机数据集

    AgiBot World是智元机器人开源的百万真机数据集,旨在推动具身智能的发展。数据集包含八十余种日常技能,覆盖家居、餐饮、工业等五大核心场景,数据规模和质量远超谷歌的Open X-Embodiment。

    AI教程资讯 2023-04-14

  • GraphAgent – 港大联合港科大开源的智能图形语言助手
    GraphAgent – 港大联合港科大开源的智能图形语言助手

    GraphAgent是香港大学和香港科技大学(广州)联合推出的智能图形语言助手,能处理现实世界中结构化(如图连接)和非结构化(如文本、视觉信息)格式的数据,数据包含复杂关系和相互依赖性,能用知识图谱展示。

    AI教程资讯 2023-04-14

最新录入 更多+
确定