Leffa – Meta 开源的图像生成框架，精确控制人物的外观和姿势-爱论文

Leffa是什么

Leffa（Learning Flow Fields in Attention）是 Meta AI推出的用在可控人物图像生成框架，基于在注意力机制中引入流场学习，精确控制人物的外观和姿势。Leffa基于正则化损失函数，指导模型在训练时让目标查询聚焦于参考图像中的正确区域，减少细节失真，提升图像质量。Leffa不增加额外参数和推理成本，且适用于多种扩散模型，展现了良好的模型无关性和泛化能力。

Leffa的主要功能

外观控制（虚拟试穿）：根据参考图像（如服装图片）生成穿着该服装的人物图像，保持人物原有特征不变。姿势控制（姿势转移）：L将一个人物的姿势从一个图像转移到另一个图像，保持人物的外观细节。细节保留：减少生成图像中的细节失真，如纹理、文字和标志等。质量维持：在控制细节的同时，保持生成图像的整体高质量。

Leffa的技术原理

注意力机制：基于注意力机制，用注意力层将目标图像（待生成的人物图像）与参考图像（提供外观或姿势的图像）关联起来。流场学习：基于学习注意力层中的流场（flow fields），显式指导目标查询（target query）关注于参考键（reference key）的正确区域。正则化损失：在注意力图上施加正则化损失，将参考图像变形以更紧密地与目标图像对齐，鼓励模型在训练期间正确关注参考区域。空间一致性：基于转换注意力图到流场，用网格采样操作将参考图像变形，确保目标查询与参考图像之间的空间一致性。模型无关性：作为正则化损失函数，集成到不同的扩散模型中，无需额外参数或复杂的训练技术。渐进式训练：在训练的最后阶段应用，避免早期性能退化，基于结合传统的扩散损失和Leffa损失进行微调，优化模型性能。

Leffa的项目地址

GitHub仓库：https://github.com/franciszzj/LeffaHuggingFace模型库：https://huggingface.co/franciszzj/LeffaarXiv技术论文：https://arxiv.org/pdf/2412.08486在线体验Demo：https://huggingface.co/spaces/franciszzj/Leffa

Leffa的应用场景

虚拟试穿：在电子商务和时尚行业中，创建虚拟试衣间，让消费者在线上看到自己穿上不同服装的样子，无需实际试穿。增强现实（AR）：在AR应用中，实时改变或添加用户的外观和服装，提供更加沉浸式的体验。游戏和娱乐：在游戏开发中，用在角色定制，玩家根据自己的喜好调整角色的外观和姿态。电影和视频制作：在电影后期制作中，生成或修改人物形象，比如改变演员的服装或姿态，无需重新拍摄。个性化广告：在广告行业中，生成个性化的广告图像，根据目标受众的特征定制模特的形象。