当前位置: 网站首页 >AI教程资讯 >正文

Loong – 港大和字节联合推出的长视频生成模型

来源:爱论文 时间:2025-02-20 12:19:05

Loong是什么

Loong是由香港大学和字节跳动联合推出的一种新型长视频生成模型,能生成外观一致、动态丰富、场景过渡自然的分钟级长视频。模型基于自回归大型语言模型(LLM),将文本和视频信息整合为统一序列,用渐进式短到长训练方案与损失重新加权策略,克服长视频训练中的挑战。Loong的设计支持模型在训练时学习从文本提示生成视频,扩展到生成超出训练长度的视频。Loong研究包括视频标记重新编码和采样策略在内的推理策略,减少推理过程中的错误累积。

Loong

Loong的主要功能

长视频生成:生成长达一分钟或更长时间的视频内容。文本到视频的转换:根据给定的文本提示生成与之相符的视频内容。内容连贯性:确保生成的视频在外观、动态变化和场景过渡上具有高度连贯性。动态丰富性:捕捉并表现出视频中的复杂动态和动作变化。场景自然过渡:在视频的不同场景之间实现平滑过渡,保持视觉连贯性。

Loong的技术原理

统一序列建模: Loong将文本标记和视频标记作为统一序列进行建模,让自回归大型语言模型(LLM)基于文本提示预测视频标记。渐进式短到长训练: 基于分阶段训练策略,逐渐增加训练视频的长度,模型能学习并生成更复杂、更具连贯性的视频内容。损失重新加权: 为解决长视频训练中的损失不平衡问题,对早期帧的损失进行加权,强化模型对早期帧的学习。视频标记重新编码: 在视频推理过程中,基于将预测的视频标记解码为像素空间的视频帧,重新编码,保持视频内容的连贯性和一致性。采样策略:基于Top-k采样策略,从最可能的标记中进行选择,减少潜在错误对后续标记生成的影响,缓解错误累积问题。

Loong的项目地址

项目官网:epiphqny.github.io/Loong-videoarXiv技术论文:https://arxiv.org/pdf/2410.02757v1

Loong的应用场景

娱乐和社交媒体:用户生成个性化的长视频内容,分享在社交媒体平台上,如音乐视频、旅行日志、趣味故事等。电影和视频制作:在电影预告片、特效制作或者长视频内容的初步创意阶段,Loong快速生成视频草图,帮助导演和制片人探索不同的故事线和视觉效果。广告和营销:企业生成吸引人的广告视频,更生动的方式展示产品或服务,提高广告的吸引力和记忆度。教育和培训:在教育领域,L创建教育内容,如历史重现、科学实验模拟,提供更加直观和互动的学习体验。新闻和报道:新闻机构快速生成新闻故事的视频摘要,提高报道的效率和吸引力。
上一篇:ScriptViz – 斯坦福大学推出的剧本可视化AI辅助工具
相关资讯 更多+
  • Loong – 港大和字节联合推出的长视频生成模型
    Loong – 港大和字节联合推出的长视频生成模型

    Loong是由香港大学和字节跳动联合推出的一种新型长视频生成模型,能生成外观一致、动态丰富、场景过渡自然的分钟级长视频。模型基于自回归大型语言模型(LLM),将文本和视频信息整合为统一序列,用渐进式短到长训练方案与损失重新加权策略,克服长视频训练中的挑战

    AI教程资讯 2023-04-14

  • ScriptViz – 斯坦福大学推出的剧本可视化AI辅助工具
    ScriptViz – 斯坦福大学推出的剧本可视化AI辅助工具

    ScriptViz是由斯坦福大学研究人员推出的一款剧本可视化辅助工具,基于大型电影数据库MovieNet,根据剧本文本和对话检索出相匹配的电影画面,将编剧的文字描述转换成具体的视觉图像。工具提供对视觉元素的精确控制,支持编剧设定固定和可变属性,生成与剧本描述紧密一致的视觉参考

    AI教程资讯 2023-04-14

  • MLE-bench – OpenAI推出AI代理性能评估的基准测试工具
    MLE-bench – OpenAI推出AI代理性能评估的基准测试工具

    MLE-bench 是 OpenAI 推出的一个基准测试工具,旨在衡量AI代理(AI Agent)在机器学习工程任务中的表现。测试包含75个来自 Kaggle 的竞赛任务,覆盖自然语言处理、计算机视觉和信号处理等多个领域。AI 代理在这个环境中完成理解比赛描述、处理数据集、训练模型、提交结果等一系列任务,最终根据排行榜得分评估能力。

    AI教程资讯 2023-04-14

  • GTSinger – 浙大开源的大型多语言高质量歌声数据集
    GTSinger – 浙大开源的大型多语言高质量歌声数据集

    GTSinger是由浙江大学研究团队推出的大型开源高质量歌声数据集,旨在支持多样化的歌声任务。GTSinger包含80 59小时的专业录音棚录制的歌声,涵盖九种不同语言(汉语、英语、日语、韩语、俄语、西班牙语、法语、德语和意大利),由20位专业歌手演唱,提供丰富的音色和风格多样性。

    AI教程资讯 2023-04-14

最新录入 更多+
确定