Vimi是由商汤科技推出的的一款可控人物视频生成AIGC产品,利用其强大的日日新大模型,实现人物视频的智能生成。用户可以通过动作、动画、声音和文字等多种方式控制视频内容,生成与目标动作高度一致的视频。Vimi突破了传统AI视频生成的限制,能够稳定输出分钟级长视频,同时支持人物表情、肢体动作的精细控制,以及头发、服饰、背景和光影效果的合理生成,为个性化视频创作提供了强大工具。
Vimi目前需要预约体验,用户可以填写Vimi相机产品体验申请:https://www.wjx.cn/vm/mhSxfGv.aspx#,审核通过后便可以参与内测。了解Vimi的更多信息请查看Vimi的官方网站:https://www.sensetime.com/cn/product-detail?categoryId=51134571&gioNav=1
Motion Prompting是 Google DeepMind、密歇根大学和布朗大学联合推出的视频生成技术,基于运动轨迹(motion trajectories)控制和引导视频内容的生成。Motion Prompting用点轨迹作为灵活的运动表示,能编码从单个点到全局场景的任意复杂度的运动。用户能设计“运动提示”(motion prompts),类似于文本提示,激发视频模型的不同能力,包括对象控制、相机控制、物理现象模拟等。
AI教程资讯
2025-01-28
Fish Speech 1 5 是Fish Audio 推出的文本到语音(TTS)模型,基于深度学习技术如Transformer、VITS、VQVAE和GPT等。Fish Speech 1 5支持英语、日语、韩语、中文等13种语言,具备零样本和少样本语音合成能力,只需10到30秒的声音样本即可模仿高质量语音,语音克隆功能延迟时间不到150毫秒。
AI教程资讯
2025-01-28
ClearerVoice-Studio 是阿里巴巴达摩院通义实验室开源的语音处理框架,集成语音增强、分离和音视频说话人提取等功能。框架基于复数域深度学习算法,有效消除背景噪声,保留语音清晰度,且最小化语音失真。
AI教程资讯
2025-01-28
PaliGemma 2是Google DeepMind基于Gemma 2语言模型家族推出的新一代视觉语言模型(VLM),作为PaliGemma模型的升级版。结合SigLIP-So400m视觉编码器和不同规模的Gemma 2模型,支持多种分辨率,基于多阶段训练具备广泛的知识迁移能力。
AI教程资讯
2025-01-28