FakeShield – 北大推出检测图像伪造的多模态大语言模型框架-爱论文

FakeShield是什么

FakeShield是北京大学研究人员推出的多模态大型语言模型框架，能检测和定位图像伪造。框架能评估图像的真实性，生成被篡改区域的掩码，提供基于像素级和图像级篡改线索的判断依据。FakeShield用GPT-4o增强现有数据集，创建多模态篡改描述数据集（MMTDSet），用在训练篡改分析能力。FakeShield包含两个关键模块：领域标签引导的可解释伪造检测模块（DTE-FDM）和多模态伪造定位模块（MFLM），分别负责检测和定位任务。FakeShield在多种篡改技术如Photoshop、DeepFake和AIGC编辑的检测和定位上表现出色，提供可解释且优于传统方法的解决方案。

FakeShield的主要功能

图像真实性评估：判断图像是否经过篡改。篡改区域定位：生成图像中被篡改区域的掩码。篡改线索分析：提供基于像素级和图像级篡改线索的判断依据。多模态数据处理：结合视觉和语言模型，提高检测的准确性和可解释性。

FakeShield的技术原理

多模态框架设计：FakeShield基于多模态大型语言模型（M-LLM），整合视觉和文本信息，提高检测和定位的准确性。数据集增强：用GPT-4o增强现有的IFDL数据集，创建MMTDSet，提供更丰富的训练样本。领域标签引导：引入领域标签（Domain Tag）区分不同类型的篡改数据，增强模型对不同篡改类型的识别能力。可解释性模块：开发DTE-FDM模块，基于分析图像特征和生成详细的文本描述提供检测依据。伪造定位模块：用MFLM模块，结合视觉语言特征，精确定位篡改区域。

FakeShield的项目地址

GitHub仓库：https://github.com/zhipeixu/FakeShieldarXiv技术论文：https://arxiv.org/pdf/2410.02761

FakeShield的应用场景

社交媒体内容审核：在社交平台上自动检测和过滤经过篡改的图片，防止假新闻和误导性内容的传播。法律取证：在法庭证据收集中，鉴定图像证据是否被篡改，确保证据的真实性和有效性。新闻媒体：帮助新闻机构验证新闻图片和视频的真实性，维护新闻报道的准确性和公信力。版权保护：为版权所有者提供工具，检测和定位未经授权使用或篡改的图像，保护知识产权。安全监控：在安全监控领域，确保监控图像的真实性，防止用篡改图像进行的欺诈或非法行为。