当前位置：网站首页 >学术论文 >正文

Vimi

AI类型：学术论文

4 分

访问次数

欢迎程度

关注程度

阅读次数

推荐次数

访问官网

简介

Vimi是由商汤科技推出的的一款可控人物视频生成AIGC产品，利用其强大的日日新大模型，实现人物视频的智能生成。用户可以通过动作、动画、声音和文字等多种方式控制视频内容，生成与目标动作高度一致的视频。Vimi突破了传统AI视频生成的限制，能够稳定输出分钟级长视频，同时支持人物表情、肢体动作的精细控制，以及头发、服饰、背景和光影效果的合理生成，为个性化视频创作提供了强大工具。

如何使用Vimi

Vimi目前需要预约体验，用户可以填写Vimi相机产品体验申请：https://www.wjx.cn/vm/mhSxfGv.aspx#，审核通过后便可以参与内测。了解Vimi的更多信息请查看Vimi的官方网站：https://www.sensetime.com/cn/product-detail?categoryId=51134571&gioNav=1

相关资讯更多+

Motion Prompting – 谷歌联合密歇根和布朗大学推出的运动轨迹控制视频生成模型
Motion Prompting是 Google DeepMind、密歇根大学和布朗大学联合推出的视频生成技术，基于运动轨迹（motion trajectories）控制和引导视频内容的生成。Motion Prompting用点轨迹作为灵活的运动表示，能编码从单个点到全局场景的任意复杂度的运动。用户能设计“运动提示”（motion prompts），类似于文本提示，激发视频模型的不同能力，包括对象控制、相机控制、物理现象模拟等。

AI教程资讯 2025-01-28
Fish Speech 1.5 – Fish Audio 推出的语音合成模型，支持13种语言
Fish Speech 1 5 是Fish Audio 推出的文本到语音（TTS）模型，基于深度学习技术如Transformer、VITS、VQVAE和GPT等。Fish Speech 1 5支持英语、日语、韩语、中文等13种语言，具备零样本和少样本语音合成能力，只需10到30秒的声音样本即可模仿高质量语音，语音克隆功能延迟时间不到150毫秒。

AI教程资讯 2025-01-28
ClearerVoice-Studio – 阿里通义实验室开源的语音处理框架
ClearerVoice-Studio 是阿里巴巴达摩院通义实验室开源的语音处理框架，集成语音增强、分离和音视频说话人提取等功能。框架基于复数域深度学习算法，有效消除背景噪声，保留语音清晰度，且最小化语音失真。

AI教程资讯 2025-01-28
PaliGemma 2 – 谷歌DeepMind推出的全新视觉语言模型
PaliGemma 2是Google DeepMind基于Gemma 2语言模型家族推出的新一代视觉语言模型（VLM），作为PaliGemma模型的升级版。结合SigLIP-So400m视觉编码器和不同规模的Gemma 2模型，支持多种分辨率，基于多阶段训练具备广泛的知识迁移能力。

AI教程资讯 2025-01-28