当前位置: 网站首页 >AI教程资讯 >正文

StoryTeller – 字节、上海交大、北大共同推出的全自动长视频描述生成一致系统

来源:爱论文 时间:2025-02-02 23:03:54

StoryTeller是什么

StoryTeller是字节跳动、上海交通大学和北京大学共同推出的系统,能基于音频视觉角色识别技术改善长视频描述的质量和一致性。系统结合低级视觉概念和高级剧情信息,生成详细且连贯的视频描述。StoryTeller由视频分割、音频视觉角色识别和描述生成三个主要模块组成,能有效处理数分钟长的视频,在MovieQA任务中展现出比现有模型更高的准确率,比最强基线Gemini-1.5-pro高9.5%的准确率。

StoryTeller

StoryTeller的主要功能

视频分割:将长视频切割成多个短片段,保持每个片段的独立性和完整性。音频视觉角色识别:结合音频和视觉信息,识别视频中对话对应的角色。描述生成:为每个视频片段生成详细的描述,整合成整个长视频的连贯叙述。数据集构建:创建并使用MovieStory101数据集,提供长视频描述的训练和测试数据。自动评估:基于MovieQA,用GPT-4自动评估视频描述的准确性和质量。模型训练与微调:训练多模态大型语言模型,提高角色识别和视频描述的准确性。全局解码:确保同一角色在不同视频片段中保持一致的识别结果。

StoryTeller的技术原理

多模态融合:整合视觉(视频帧)、音频(对话)和文本(字幕和描述)信息,全面理解视频内容。音频分离和角色ID分配:用音频嵌入模型对每个对话进行嵌入,基于聚类算法分配全局ID,将相似的音频嵌入分配相同的ID,表示同一角色。音频视觉角色识别模型:用大型语言模型(如Tarsier-7B)结合OpenAI的Whisper-large-v2音频编码器,将每个音频ID映射到特定的角色。全局解码算法:在推理时,确保不同片段中相同角色的全局ID映射到一致的角色名称,提高角色识别的准确性。视频描述生成:用识别结果作为输入,基于大型语言模型生成每个片段的详细描述,并整合成完整的视频描述。

StoryTeller的项目地址

GitHub仓库:https://github.com/hyc2026/StoryTellerarXiv技术论文:https://arxiv.org/pdf/2411.07076

StoryTeller的应用场景

电影和视频内容制作:自动生成电影预告片或电影片段的描述,帮助导演和编剧快速理解视频内容。辅助视频编辑工作,基于视频描述快速定位视频中的关键片段。视频内容分析:在视频分析领域,提取视频内容的关键信息,如角色、情节和动作,进行深入的内容分析。辅助视障人士:为视障人士提供视频内容的音频描述,更好地理解视频内容和故事情节。教育和培训:在教育领域,为学生提供视频教材的详细描述,增强学习体验。在职业培训中,生成视频教程的详细步骤描述,提高培训效率。视频搜索和索引:提高视频搜索的准确性,基于视频描述快速检索视频中的相关片段。
上一篇:DELIFT – 数据高效语言模型指令微调算法
相关资讯 更多+
  • StoryTeller – 字节、上海交大、北大共同推出的全自动长视频描述生成一致系统
    StoryTeller – 字节、上海交大、北大共同推出的全自动长视频描述生成一致系统

    StoryTeller是字节跳动、上海交通大学和北京大学共同推出的系统,能基于音频视觉角色识别技术改善长视频描述的质量和一致性。系统结合低级视觉概念和高级剧情信息,生成详细且连贯的视频描述。StoryTeller由视频分割、音频视觉角色识别和描述生成三个主要模块组成,能有效处理数分钟长的视频。

    AI教程资讯 2023-04-14

  • DELIFT – 数据高效语言模型指令微调算法
    DELIFT – 数据高效语言模型指令微调算法

    DELIFT(Data Efficient Language model Instruction Fine-Tuning)是新型算法,用在优化大型语言模型(LLMs)在指令调优、任务特定微调和持续微调三个关键阶段的数据选择。基于成对效用度量和次模优化技术,高效选择多样化和最优的数据子集,减少计算资源消耗,同时保持或提升模型性能。

    AI教程资讯 2023-04-14

  • HART – 麻省理工学院推出的自回归视觉生成模型
    HART – 麻省理工学院推出的自回归视觉生成模型

    HART(Hybrid Autoregressive Transformer)是麻省理工学院研究团队推出的自回归视觉生成模型。能直接生成1024×1024像素的高分辨率图像,质量媲美扩散模型。HART基于混合Tokenizer技术,将自动编码器的连续潜在表示分解为离散token和连续token,其中离散token负责捕捉图像的主要结构,连续token专注于细节。

    AI教程资讯 2023-04-14

  • WebDreamer – 基于大语言模型模拟网页交互增强网络规划能力的框架
    WebDreamer – 基于大语言模型模拟网页交互增强网络规划能力的框架

    WebDreamer是俄亥俄州立大学和Orby AI研究团队推出的基于模型规划的网络智能体,基于大型语言模型(LLMs),特别是GPT-4o,作为世界模型预测网站上的交互结果。框架模拟可能的用户行为和结果,帮助网络代理在复杂的网络环境中进行有效的规划和决策。

    AI教程资讯 2023-04-14

最新录入 更多+
确定