OmniSVG – 复旦大学联合 StepFun 推出端到端多模态矢量图形生成模型-爱论文

OmniSVG是什么

OmniSVG 是复旦大学和 StepFun 联合开发的全球首个端到端多模态 SVG（可缩放矢量图形）生成模型。基于预训练视觉语言模型（VLM），通过创新的 SVG 标记化方法，将 SVG 命令和坐标参数化为离散令牌，实现了结构逻辑与几何细节的解耦。使 OmniSVG 能高效生成从简单图标到复杂动漫角色的多样化高质量 SVG 图形。

OmniSVG的主要功能

多模态生成：OmniSVG 是首个端到端的多模态 SVG 生成模型，能根据文本描述、图像参考或角色参考生成高质量的 SVG 图形。可以生成从简单图标到复杂动漫角色的多样化图形。高效生成与训练：基于预训练的视觉语言模型（VLM）Qwen-VL，OmniSVG 通过创新的 SVG 标记化方法，将 SVG 命令和坐标参数化为离散令牌，在训练过程中分离了结构逻辑与几何细节。使训练效率较传统方法提升了 3 倍以上，能处理多达 3 万个令牌的序列，支持生成具有丰富细节的复杂 SVG。数据集与评估：OmniSVG 团队发布了 MMSVG-2M 数据集，包含 200 万个带多模态标注的 SVG 资源，涵盖图标、插图和角色三大子集。提出了标准化的评估协议 MMSVG-Bench，用于测试条件 SVG 生成任务的性能。可编辑性与实用性：生成的 SVG 文件具有无限可缩放性和完全可编辑性，能无缝集成到专业设计工作流程中，如 Adobe Illustrator 等工具，提高了 AI 生成图形在图形设计、网页开发等领域的实用性。

OmniSVG的技术原理

基于预训练视觉语言模型（VLM）：OmniSVG 基于预训练的视觉语言模型 Qwen-VL 构建。模型能深度融合图像和文本信息，为多模态生成提供了强大的基础。SVG 标记化方法：OmniSVG 创新性地将 SVG 命令和坐标参数化为离散令牌（tokens），通过类似自然语言处理的方式处理 SVG 的生成。提高了训练效率，保留了生成复杂 SVG 结构的能力。端到端多模态生成框架：OmniSVG 支持从文本描述、图像参考或角色参考等多种输入方式直接生成 SVG 图形。这种端到端的生成框架能生成色彩丰富、细节生动的矢量图形，克服了传统方法的诸多限制。高效训练与长序列处理：与传统方法相比，OmniSVG 的训练速度提升了 3 倍以上，并且能够处理长达 30,000 个令牌的序列。这使得它能够生成包含丰富细节的复杂 SVG 图形。

OmniSVG的项目地址

项目官网：https://omnisvg.github.io/Github仓库：https://github.com/OmniSVGHuggingFace模型库：https://huggingface.co/OmniSVGarXiv技术论文：https://arxiv.org/pdf/2504.06263

OmniSVG的应用场景

品牌图标设计：OmniSVG 可以根据文本描述快速生成品牌图标，设计师无需从头绘制，大大减少了手动设计时间。网页开发：在网页开发中，图标是不可或缺的元素。OmniSVG 能根据文本描述或图像参考生成矢量图标，图标可以无损缩放，适用于从移动设备到 4K 显示器的多种分辨率。角色与场景设计：在游戏开发中，OmniSVG 可以用于生成游戏角色、场景等图形素材，为游戏增添独特的艺术风格。动态角色生成：基于角色参考，OmniSVG 能生成保持相同角色特征但姿势或场景不同的矢量图形。快速原型设计：内容创作者可以用 OmniSVG 快速生成图标、插图或角色图形的原型，加速创作流程。