FlipSketch – 萨里大学推出的文本引导生成无约束草图动画的AI系统-爱论文

FlipSketch是什么

FlipSketch 是萨里大学推出的创新系统，能将静态绘图转变为文本引导的草图动画。技术基于三个关键创新实现：微调草图风格的帧生成、用噪声细化保持输入草图视觉完整性的参考帧机制，及在不失去视觉一致性的情况下实现流畅运动的双注意力合成。与传统矢量动画不同，FlipSketch 支持动态草图变换，捕捉传统动画的自由表现力，让草图动画制作变得简单直观，同时保持手绘动画的艺术性。

FlipSketch的主要功能

文本引导的动画生成：用户输入文本描述指导草图动画的生成，让动画制作更加直观和便捷。保持草图身份：在动画过程中，系统保持原始草图的视觉特征和身份，确保动画的输出既具有连贯性，又不失去原始草图的独特风格。动态草图转换：将静态草图转换为动态动画，支持场景级别的交互，让动画更加生动和有趣。艺术性保持：FlipSketch 在自动化动画制作的过程中，保持手绘动画的艺术性和表现力，让最终的动画作品既具有技术感，又不失艺术美感。技术创新：基于微调、参考帧机制和双注意力组合等技术手段，提高动画的质量和自然度，让动画更加流畅和逼真。

FlipSketch的技术原理

文本到视频扩散模型：基于文本到视频扩散模型的运动先验，一种预训练的模型，能根据文本描述生成视频内容。模型被进一步微调，适应草图动画的特定需求，包括生成连贯的草图风格帧序列。微调草图风格的帧生成：系统基于微调预训练模型，生成符合草图特点的画面，确保动画输出既保持原始草图的风格，达到动画所需的连贯性。参考帧机制：基于噪声细化技术，系统保持输入草图的视觉完整性。这一机制用迭代细化过程，确保每一帧都能忠实地反映出最初的创意，同时捕捉草图的基本风格。双注意力合成：一种新颖的方法，用在保持视觉一致性的同时实现流畅的运动。双注意力机制在去噪过程中选择性地传递粗粒度和细粒度信息，精确控制生成动画中的身份保持和运动保真度。光栅框架：用光栅框架支持动态草图变换，捕捉传统动画的自由表现力。光栅框架支持更复杂的图像处理，动画包含更多的细节和动态变化。