InstructMove – 东京大学联合 Adobe 推出基于指令的图像编辑模型-爱论文

InstructMove是什么

InstructMove是东京大学和Adobe公司联合推出的基于指令的图像编辑模型，通过观察视频中的帧对变化学习如何根据指令进行图像操作。模型基于多模态大型语言模型（MLLMs）生成描述帧对之间变化的编辑指令，训练出能在保持内容一致性的同时，执行复杂非刚性编辑任务的能力，如调整主体姿势、改变表情和视角等。InstructMove用真实视频帧作为数据源，确保编辑过程中内容的自然性和真实性，克服合成数据集在复杂编辑任务上的局限性。InstructMove支持基于掩码等控制机制进行精确的局部编辑，进一步增强在实际应用中的灵活性和实用性。

InstructMove的主要功能

非刚性编辑：能调整图像中主体的姿势、表情等非刚性特征，符合给定的编辑指令。视角调整：根据指令改变图像的拍摄视角，如将相机视角向左或向右移动等，改变图像的构图和视觉效果。元素重新排列：对图像中的元素进行重新排列或移动，如将玩具的腿放在一起、让鸟的尾巴可见等，满足特定的编辑需求。精确局部编辑：与掩码等控制机制的结合，支持对图像的特定区域进行精确的局部编辑，实现更细致的修改效果。

InstructMove的技术原理

数据集构建视频帧采样：从互联网视频中采样帧对，确保帧对之间存在有意义的变换，如主体姿势变化、元素移动或相机视角调整等，获取到大量自然且真实的图像变换样本。多模态语言模型生成指令：用多模态大型语言模型（MLLMs），如GPT-4o或Pixtral-12B，分析采样得到的帧对之间的差异，生成准确的编辑指令。模型架构与训练预训练模型微调：在构建的数据集上微调预训练的文本到图像（T2I）模型，如Stable Diffusion。空间条件策略：引入空间条件策略，将参考图像与噪声输入沿空间维度进行拼接，而不是传统的通道拼接。去噪网络训练：将拼接后的输入送入去噪U-Net网络，预测噪声图。给予计算预测噪声图与原始噪声图之间的差异，优化模型参数，准确地根据编辑指令对目标图像进行去噪和重建，实现图像编辑。控制机制集成掩码引导：支持与掩码等控制机制的集成，实现精确的局部编辑。在推理阶段，用掩码控制编辑区域，将更新后的潜在表示与参考潜在表示进行融合，对图像的特定部分进行修改。其他空间控制：与ControlNet等可控扩散模型集成，接受用户提供的额外视觉线索，如草图或骨架关键点等，实现更复杂和精确的图像编辑操作。

InstructMove的项目地址

项目官网：ljzycmd.github.io/projects/InstructMovearXiv技术论文：https://arxiv.org/pdf/2412.12087v1

InstructMove的应用场景

影视后期制作：特效师调整科幻电影中外星生物角色的表情，让其更符合剧情要求的愤怒情绪。广告创意设计：设计师用为汽车广告调整赛车视角和背景元素，突出新车型的速度与激情特点，吸引消费者注意。室内设计：室内设计师调整卧室床头柜位置和窗帘样式，满足客户对美观和实用性的需求，营造温馨舒适的睡眠环境。艺术教育：老师在绘画课上调整人物动作，帮助学生理解动作与情感的关系，加深对艺术创作的理解。个人照片编辑：个人用户调整聚会照片中的表情，使其更自然轻松，分享到社交平台，获得朋友点赞好评。