当前位置: 网站首页 >AI教程资讯 >正文

StoryWeaver – 厦大和网易伏羲联合推出的统一故事可视化 AI 模型

来源:爱论文 时间:2025-01-16 14:15:17

StoryWeaver是什么

StoryWeaver是厦门大学多媒体可信感知与高效计算教育部重点实验室和网易伏羲人工智能实验室推出的AI模型,能用知识增强的故事角色定制实现高质量的故事可视化。StoryWeaver用新颖的知识图谱Character Graph丰富地表示故事中的角色、属性和关系,用Customization via Character Graph(CCG)和知识增强空间引导(KE-SG)技术,精确地注入角色语义,生成与文本叙述相匹配的图像序列。系统在保持角色身份和文本语义对齐方面表现出色,有效提升了故事可视化的准确性和生动性。

StoryWeaver

StoryWeaver的主要功能

角色定制与可视化:根据文本叙述和角色图像生成一系列视觉化的故事图像,精确定制给定角色的形象。语义对齐:系统能确保生成的图像序列与文本提示在语义上保持一致,即图像内容与文本描述相匹配。知识图谱应用:系统能理解和表示故事中角色的详细属性和角色间的关系。多角色互动:StoryWeaver能处理多角色故事场景,保持每个角色的身份清晰,展现角色间的自然互动。跨注意力分配:优化多角色故事中的注意力分配,避免身份混合问题。

StoryWeaver的技术原理

Character Graph (CG):构建一个知识图谱CG,用对象节点(角色)、属性节点(与角色相关的属性)和事件(角色间的关系)组成,共同定义故事场景的核心要素。Customization via Character Graph (CCG):基于CCG,将CG中的结构化知识转化为增强的场景描述,提高角色身份保持和事件语义对齐的一致性。知识增强空间引导(KE-SG):引入知识编码器提取不同角色的特征,根据角色特征调整初始位置先验,修改错误的交叉注意力图,确保角色知识准确地关注故事场景中的相应区域。注意力机制修改:基于修改注意力图增强与角色相关的区域,减少与角色无关区域的关注度,提高多角色故事的视觉质量。统一框架:StoryWeaver提供统一的框架,能同时处理单角色和多角色的故事可视化任务。

StoryWeaver的项目地址

GitHub仓库:https://github.com/Aria-Zhangjl/StoryWeaverarXiv技术论文:https://arxiv.org/pdf/2412.07375

StoryWeaver的应用场景

教育辅助:用StoryWeaver生成故事图像,辅助儿童学习语言和文学,提高他们的阅读兴趣。漫画创作:自动生成漫画故事的框架图像,加快漫画家的创作流程。互动游戏:在角色扮演游戏中,根据玩家的选择动态生成故事情节和视觉内容。个性化广告:为不同产品定制个性化的故事广告,提升广告的吸引力和效果。电影预览:将电影剧本转化为视觉场景,帮助导演进行前期规划和预览。
上一篇:StockMixer – 上海交大推出的股票价格预测架构
相关资讯 更多+
  • StoryWeaver – 厦大和网易伏羲联合推出的统一故事可视化 AI 模型
    StoryWeaver – 厦大和网易伏羲联合推出的统一故事可视化 AI 模型

    StoryWeaver是厦门大学多媒体可信感知与高效计算教育部重点实验室和网易伏羲人工智能实验室推出的AI模型,能用知识增强的故事角色定制实现高质量的故事可视化。StoryWeaver用新颖的知识图谱Character Graph丰富地表示故事中的角色、属性和关系。

    AI教程资讯 2023-04-14

  • StockMixer – 上海交大推出的股票价格预测架构
    StockMixer – 上海交大推出的股票价格预测架构

    StockMixer是上海交通大学推出的用在股票价格预测的多层感知器(MLP)架构,具备简单和强大的预测能力。架构基于指标混合、时间混合和股票混合三个步骤处理和预测股票数据,有效捕捉股票指标、时间和股票间的复杂相关性。

    AI教程资讯 2023-04-14

  • LaDeCo – 西安交大联合微软推出的自动图形设计构图方法
    LaDeCo – 西安交大联合微软推出的自动图形设计构图方法

    LaDeCo是西安交通大学和微软研究院联合推出的自动图形设计构图方法,基于将设计任务分解为层次化的步骤来实现。LaDeCo对输入的设计元素进行层规划,将它们分配到不同的语义层,比如背景、底层、图像 标志、文本和装饰。

    AI教程资讯 2023-04-14

  • SEMIKONG – 专为半导体领域设计的大型语言模型
    SEMIKONG – 专为半导体领域设计的大型语言模型

    SEMIKONG是专门为半导体行业定制的大型语言模型(LLM),是Aitomatic、FPT Software和东京电子有限公司联合推出的。基于深入的领域知识,解决半导体制造和设计中的独特挑战,如复杂的物理和化学问题。

    AI教程资讯 2023-04-14

最新录入 更多+
确定