NeuralSVG – 文本驱动矢量图形生成技术，转化为有层次结构的矢量图形-爱论文

NeuralSVG是什么

NeuralSVG是创新的文本驱动矢量图形生成技术。通过一个小型的多层感知器网络，将文本提示转化为具有层次结构的矢量图形。该网络以形状索引为输入，输出形状参数，再经可微渲染器生成像素输出。基于分数蒸馏采样优化网络权重，形成图形的隐式神经表示。还采用基于随机丢弃的正则化技术，使生成图形语义清晰、有序可编辑。NeuralSVG支持推理时控制，可动态调整图形属性，如背景色等。在生成结构化矢量图形方面表现优异，为图形生成带来新思路。

NeuralSVG的主要功能

文本生成矢量图形：能根据文本提示生成具有有序和可编辑形状的矢量图形，解决了传统方法生成的矢量图形结构复杂、难以二次编辑的问题。支持动态条件：支持用户在生成过程中根据需要动态调整生成的SVG，如背景颜色、宽高比等，实现多颜色方案的快速切换和适应不同设计布局需求。生成草图：可以生成具有不同笔画数量的草图，且无需对框架进行任何修改。层次结构生成：通过引入基于dropout的正则化技术，鼓励生成的SVG具有分层结构，使每个形状在整体场景中具有独立的意义，便于后期编辑。

NeuralSVG的技术原理

隐式神经表示：NeuralSVG采用隐式神经表示，将整个矢量图形场景编码到一个小的多层感知器（MLP）网络的权重中。这种表示方式类似于神经辐射场（NeRFs），通过网络输出单个形状，再聚合形成完整的SVG。分数蒸馏采样优化：使用分数蒸馏采样（Score Distillation Sampling，SDS）方法对网络权重进行优化。SDS能保证生成SVG文件的高质量，同时促进图形层次结构的形成，使每个形状在整体图像中都具有独特的意义和作用。基于dropout的正则化技术：引入一种基于随机丢弃（dropout）的正则化技术，鼓励每个学习到的形状在整体构图中具有有意义且有序的角色。使生成的图形更具结构性，便于后期编辑修改。推理时控制能力：基于神经表示的优势，NeuralSVG支持推理时控制，用户可以根据提供的输入动态调整生成的SVG，例如背景颜色、宽高比等。

NeuralSVG的项目地址

项目官网：https://sagipolaczek.github.io/NeuralSVGGithub仓库：https://github.com/SagiPolaczek/NeuralSVGarXiv技术论文：https://arxiv.org/pdf/2501.03992

NeuralSVG的应用场景

艺术创作：艺术家可以用NeuralSVG根据创意文本生成具有层次感和可编辑性的矢量图形，便于进一步创作和修改。设计领域：设计师能快速生成符合需求的矢量图形，用于网页设计、UI设计等，可根据不同场景动态调整图形的颜色、背景等元素。教育与学术：在教育领域，可用于生成教学所需的矢量图形示例；在学术研究中，有助于研究人员探索文本与矢量图形生成之间的关系。