InfiniteYou – 字节跳动开源的身份保持图像生成框架-爱论文

InfiniteYou是什么

InfiniteYou（InfU）是字节跳动智能创作团队推出的基于扩散变换器（Diffusion Transformers，如 FLUX）的身份保持图像生成框架。基于 InfuseNet 将身份特征注入扩散模型，增强身份相似度，保持图像生成能力。InfiniteYou结合多阶段训练策略，包括预训练和监督微调（SFT），用合成的单人多样本（SPMS）数据，提升文本与图像对齐、图像质量和美学效果。InfiniteYou 性能卓越，兼容性强，为生成式 AI 领域做出重要贡献。

InfiniteYou的主要功能

身份保持：生成的图像高度保留输入身份图像的面部相似度。文本驱动的图像生成：用户基于文本描述控制生成图像的内容、风格和场景。高质量图像生成：生成的图像在质量、美学效果和文本对齐方面表现出色。插件化设计：兼容多种现有方法和工具（如 ControlNets、LoRAs等），支持更复杂的个性化任务。

InfiniteYou的技术原理

InfuseNet：InfuseNet 是 InfiniteYou 的核心组件，类似于 ControlNet，将身份特征注入扩散模型（如 FLUX）。身份特征基于残差连接注入到扩散模型中，避免直接修改注意力层，减少对基础模型生成能力的负面影响。预训练阶段：基于真实单人单样本（SPSS）数据进行预训练，学习身份图像的重建能力。监督微调阶段：基于合成的单人多样本（SPMS）数据进行微调，提升文本与图像对齐、图像质量和美学效果。扩散变换器（Diffusion Transformers）：用先进的扩散变换器（如 FLUX）作为基础模型，模型在图像生成方面表现出色。扩散变换器支持生成高质量、高分辨率的图像，为身份保持图像生成提供了强大的基础。插件化设计：InfiniteYou 支持多种现有方法和工具，如 ControlNets、LoRAs等，提供更大的灵活性和扩展性。用户根据需求选择不同的插件，实现更复杂的个性化任务，如风格化、多概念生成等。

InfiniteYou的项目地址

项目官网：https://bytedance.github.io/InfiniteYou/GitHub仓库：https://github.com/bytedance/InfiniteYouHuggingFace模型库：https://huggingface.co/ByteDance/InfiniteYouarXiv技术论文：https://arxiv.org/pdf/2503.16418在线体验Demo：https://huggingface.co/spaces/ByteDance/InfiniteYou

InfiniteYou的应用场景

社交媒体与个人品牌：用户将自己的照片生成不同风格的图像，用在分享或品牌推广。影视与娱乐：快速生成演员或角色在不同场景下的形象，辅助影视制作和角色设计。广告与营销：根据目标受众照片生成个性化广告，提升吸引力。教育与培训：生成虚拟教师或历史人物形象，用于在线教育和历史展示。艺术与设计：帮助艺术家和设计师快速生成创意草图，探索不同风格。