Etna是七火山科技推出的AI文生视频工具,能根据简短的文本描述生成8至15秒的4K高清视频内容,帧率高达60fps。采用最新的DiT架构,融合时空卷积和注意力层,Etna具备出色的时空理解能力,能处理视频数据中的时间连续性,生成具有时间维度的视频内容。Etna在大规模视频数据集上进行训练,使用了包括LDS大规模训练、HPO超参数优化和DPO微调等深度学习技术策略,确保了强大的性能和生成能力。
GenCast是DeepMind推出的革命性AI气象预测模型,基于扩散模型技术,提供长达15天的全球天气预报。GenCast在97 2%的预测任务中超越全球顶尖的中期天气预报系统ENS,尤其在极端天气事件的预测上表现突出。与传统模型相比,GenCast能在8分钟内生成预报,显著提高预测效率。
AI教程资讯
2025-01-28
FullStack Bench是字节跳动豆包大模型团队与M-A-P社区联合推出的全新代码评估基准,专注于全栈编程和多语言编程能力评估。FullStack Bench覆盖超过11种真实编程场景,包含3374个问题,涉及16种编程语言,能更有效地衡量大模型在现实世界中的代码开发能力。
AI教程资讯
2025-01-28
Motion Prompting是 Google DeepMind、密歇根大学和布朗大学联合推出的视频生成技术,基于运动轨迹(motion trajectories)控制和引导视频内容的生成。Motion Prompting用点轨迹作为灵活的运动表示,能编码从单个点到全局场景的任意复杂度的运动。用户能设计“运动提示”(motion prompts),类似于文本提示,激发视频模型的不同能力,包括对象控制、相机控制、物理现象模拟等。
AI教程资讯
2025-01-28
Fish Speech 1 5 是Fish Audio 推出的文本到语音(TTS)模型,基于深度学习技术如Transformer、VITS、VQVAE和GPT等。Fish Speech 1 5支持英语、日语、韩语、中文等13种语言,具备零样本和少样本语音合成能力,只需10到30秒的声音样本即可模仿高质量语音,语音克隆功能延迟时间不到150毫秒。
AI教程资讯
2025-01-28