当前位置: 网站首页 >AI教程资讯 >正文

FakeShield – 北大推出检测图像伪造的多模态大语言模型框架

来源:爱论文 时间:2025-02-14 15:28:13

FakeShield是什么

FakeShield是北京大学研究人员推出的多模态大型语言模型框架,能检测和定位图像伪造。框架能评估图像的真实性,生成被篡改区域的掩码,提供基于像素级和图像级篡改线索的判断依据。FakeShield用GPT-4o增强现有数据集,创建多模态篡改描述数据集(MMTDSet),用在训练篡改分析能力。FakeShield包含两个关键模块:领域标签引导的可解释伪造检测模块(DTE-FDM)和多模态伪造定位模块(MFLM),分别负责检测和定位任务。FakeShield在多种篡改技术如Photoshop、DeepFake和AIGC编辑的检测和定位上表现出色,提供可解释且优于传统方法的解决方案。

FakeShield

FakeShield的主要功能

图像真实性评估:判断图像是否经过篡改。篡改区域定位:生成图像中被篡改区域的掩码。篡改线索分析:提供基于像素级和图像级篡改线索的判断依据。多模态数据处理:结合视觉和语言模型,提高检测的准确性和可解释性。

FakeShield的技术原理

多模态框架设计:FakeShield基于多模态大型语言模型(M-LLM),整合视觉和文本信息,提高检测和定位的准确性。数据集增强:用GPT-4o增强现有的IFDL数据集,创建MMTDSet,提供更丰富的训练样本。领域标签引导:引入领域标签(Domain Tag)区分不同类型的篡改数据,增强模型对不同篡改类型的识别能力。可解释性模块:开发DTE-FDM模块,基于分析图像特征和生成详细的文本描述提供检测依据。伪造定位模块:用MFLM模块,结合视觉语言特征,精确定位篡改区域。

FakeShield的项目地址

GitHub仓库:https://github.com/zhipeixu/FakeShieldarXiv技术论文:https://arxiv.org/pdf/2410.02761

FakeShield的应用场景

社交媒体内容审核:在社交平台上自动检测和过滤经过篡改的图片,防止假新闻和误导性内容的传播。法律取证:在法庭证据收集中,鉴定图像证据是否被篡改,确保证据的真实性和有效性。新闻媒体:帮助新闻机构验证新闻图片和视频的真实性,维护新闻报道的准确性和公信力。版权保护:为版权所有者提供工具,检测和定位未经授权使用或篡改的图像,保护知识产权。安全监控:在安全监控领域,确保监控图像的真实性,防止用篡改图像进行的欺诈或非法行为。
上一篇:MaskGCT – 趣丸科技联合香港中文大学推出的语音合成大模型
相关资讯 更多+
  • FakeShield – 北大推出检测图像伪造的多模态大语言模型框架
    FakeShield – 北大推出检测图像伪造的多模态大语言模型框架

    FakeShield是北京大学研究人员推出的多模态大型语言模型框架,能检测和定位图像伪造。框架能评估图像的真实性,生成被篡改区域的掩码,提供基于像素级和图像级篡改线索的判断依据。FakeShield用GPT-4o增强现有数据集,创建多模态篡改描述数据集(MMTDSet),用在训练篡改分析能力。

    AI教程资讯 2023-04-14

  • MaskGCT – 趣丸科技联合香港中文大学推出的语音合成大模型
    MaskGCT – 趣丸科技联合香港中文大学推出的语音合成大模型

    MaskGCT是趣丸科技与香港中文大学(深圳)合作推出的语音合成大模型,基于掩码生成模型与语音表征解耦编码的技术,实现在声音克隆、跨语种合成、语音控制等任务上的显著效果。模型在多个TTS基准数据集上达到行业领先的水平,某些性能指标甚至超过人类。

    AI教程资讯 2023-04-14

  • GLM-4-Voice – 智谱AI推出的端到端情感语音模型
    GLM-4-Voice – 智谱AI推出的端到端情感语音模型

    GLM-4-Voice是智谱AI推出的端到端情感语音模型,能直接理解和生成中英文语音,支持实时语音对话,能根据用户指令灵活调整语音的情感、语调、语速和方言等特征。模型由三个部分组成:GLM-4-Voice-Tokenizer负责将连续语音转换为离散token,GLM-4-Voice-Decoder将token转换回连续语音输出,GLM-4-Voice-9B基于GLM-4-9B模型进行预训练和对齐,理解和生成语音

    AI教程资讯 2023-04-14

  • Unbounded – 谷歌推出的首款AI生成式无限人生模拟游戏
    Unbounded – 谷歌推出的首款AI生成式无限人生模拟游戏

    Unbounded是谷歌和北卡罗来纳大学教堂山分校共同推出的无限人生模拟游戏。游戏突破传统视频游戏的局限,用生成模型,如大型语言模型(LLM)和视觉生成模型,创造一个没有固定规则和边界的游戏体验。玩家与自己的虚拟角色互动,用自然语言指令引导角色在虚拟世界中探索、互动,形成连贯的故事线。

    AI教程资讯 2023-04-14

最新录入 更多+
确定