Fashion-VDM – 谷歌和华盛顿大学联合推出的虚拟试穿技术-爱论文

Fashion-VDM是什么

Fashion-VDM是谷歌和华盛顿大学共同推出的基于视频扩散模型（VDM）的虚拟试穿技术。能在给定服装图像和人物视频的情况下，生成人物穿着指定服装的高质量试穿视频，保留人物的身份和动作。Fashion-VDM基于扩散模型架构、分割分类器自由引导和渐进式时间训练策略，解决视频虚拟试穿中服装细节和时间一致性的问题，在视频数据有限时，基于联合图像-视频训练提高服装保真度，达到视频虚拟试穿领域的新高度。

Fashion-VDM的主要功能

生成虚拟试穿视频：Fashion-VDM将给定的服装图像和人物视频结合起来，生成人物穿着该服装的视频，保留人物的原始身份和动作。保持服装细节和时间一致性：解决现有视频虚拟试穿方法中服装细节缺失和时间一致性不足的问题。提高服装保真度：基于分割分类器自由引导（Split Classifier-Free Guidance）技术，增强对服装图像细节的控制和保真度。优化视频生成效率：用渐进式时间训练策略，实现单次通过64帧的512px视频生成，提高视频生成的效率和质量。联合图像-视频训练：在训练过程中结合图像和视频数据，特别是在视频数据有限的情况下，提高模型的性能。

Fashion-VDM的技术原理

扩散模型架构：Fashion-VDM基于扩散模型，逐步从噪声中恢复出清晰的图像或视频。3D卷积和时间注意力块：在主UNet网络中加入3D卷积和时间注意力块，维持视频帧之间的时间一致性。分割分类器自由引导（Split Classifier-Free Guidance）：一种对多个条件信号进行独立控制的技术，支持模型更精确地控制生成结果，提高服装保真度和视频帧之间的一致性。渐进式时间训练：模型通过多个阶段的训练，逐步增加视频帧长度，从图像数据开始，逐步引入更长的视频帧进行训练，直到达到64帧的目标。联合图像-视频训练：在训练过程中，用图像和视频数据，基于条件网络分支技术，在图像批次训练时跳过对时间块的更新，提高数据多样性和训练稳定性。预处理和编码：输入的视频和服装图像经过预处理，分别提取人物姿态、服装无关帧、服装分割和服装姿态等信息，分别用不同的UNet编码器进行编码。

Fashion-VDM的项目地址

项目官网：johannakarras.github.io/Fashion-VDMarXiv技术论文：https://arxiv.org/pdf/2411.00225

Fashion-VDM的应用场景

在线服装购物：消费者在购买前用虚拟试穿功能更直观地看到服装的穿着效果，减少因尺码、款式不合适导致的退换货问题。时尚设计与营销：服装设计师和品牌展示服装作品，提前预测市场反应，降低设计和营销成本。电商平台：电商平台可以集成Fashion-VDM技术，提升线上购物的互动性和趣味性，增加消费者的购买意愿。虚拟时尚秀：在虚拟时尚秀中展示服装，提供更加精彩和真实的展示效果。社交媒体营销：品牌和影响者可以在社交媒体，创建吸引人的内容，提高用户参与度和品牌曝光。