Add-it是什么
Add-it是NVIDIA推出的无需训练的图像编辑技术,能根据文本指令在图像中添加对象。这项技术基于扩展扩散模型的注意力机制,整合场景图像、文本提示和生成图像的信息,实现结构一致性和自然的对象放置。Add-it在真实和生成图像的插入基准测试中表现优异,优于监督学习方法,且在超过80%的情况下更受人类偏好。

来源:爱论文 时间:2025-02-03 23:30:53
Add-it是NVIDIA推出的无需训练的图像编辑技术,能根据文本指令在图像中添加对象。这项技术基于扩展扩散模型的注意力机制,整合场景图像、文本提示和生成图像的信息,实现结构一致性和自然的对象放置。Add-it在真实和生成图像的插入基准测试中表现优异,优于监督学习方法,且在超过80%的情况下更受人类偏好。
Add-it是NVIDIA推出的无需训练的图像编辑技术,能根据文本指令在图像中添加对象。这项技术基于扩展扩散模型的注意力机制,整合场景图像、文本提示和生成图像的信息,实现结构一致性和自然的对象放置。
AI教程资讯
2023-04-14
DINO-X是IDEA研究院推出的通用视觉大模型,具备开放世界对象检测与理解能力。支持文本、视觉和定制提示,能识别图像中的任何对象而无需用户提示。基于超过1亿样本的Grounding-100M数据集,DINO-X在COCO、LVIS-minival和LVIS-val基准测试中刷新性能记录。模型包含DINO-X Pro和DINO-X Edge两个版本,前者提供强大的感知能力,后者优化推理速度,适合边缘部署。
AI教程资讯
2023-04-14
The Matrix是与电影同名的、首个AI基础世界模拟器,是全华人团队推出的(作者分别来自阿里巴巴、香港大学、滑铁卢大学和加拿大AI研究机构Vector Insititute)。The Matrix能生成无限长、高保真720p真实场景视频流,支持实时交互控制。
AI教程资讯
2023-04-14
DreamPolish是Zhipu AI、清华大学和北京大学推出的文本到3D生成模型,基于两阶段方法改进复杂对象的精细几何结构和高质量纹理的生成。第一阶段用多种神经表示逐步细化几何形状,基于抛光阶段改善表面细节。第二阶段用领域得分蒸馏技术,引导纹理生成朝向结合逼真度和一致性的目标领域,显著提升纹理质量。
AI教程资讯
2023-04-14