WebLI-100B – 谷歌 DeepMind 推出的1000亿视觉语言数据集-爱论文

WebLI-100B是什么

WebLI-100B是Google DeepMind推出的包含1000亿图像-文本对的超大规模数据集，用在预训练视觉语言模型（VLMs）。WebLI-100B是WebLI数据集的扩展版本，基于从网络中收集大量图像及其对应的标题或页面标题作为文本配对信息构建而成。WebLI-100B的规模是之前最大视觉语言数据集的十倍，用海量数据提升模型对长尾概念、文化多样性和多语言内容的理解能力。研究者在构建时仅进行基本的数据过滤，保留尽可能多的语言和文化多样性。WebLI-100B的出现为训练更具包容性的多模态模型提供了重要的基础资源。

WebLI-100B的主要功能

支持大规模预训练：WebLI-100B提供1000亿个图像-文本对，为VLMs的预训练提供丰富的数据资源，显著提升模型在多种任务上的性能。提升文化多样性：包含来自不同文化背景的图像和文本，帮助模型更好地理解和生成与不同文化相关的视觉和语言内容。增强多语言能力：数据集中包含多种语言的文本，有助于提升模型在低资源语言上的性能，促进多语言任务的开发和应用。支持多模态任务：WebLI-100B的数据用在多种多模态任务，如图像分类、图像描述生成、视觉问答等，为多模态模型的开发提供强大的支持。

WebLI-100B的技术原理

数据收集：来源：WebLI-100B的数据主要来源于互联网，通过大规模的网络爬取收集图像及其对应的文本描述（如图像的alt文本或页面标题）。规模：数据集包含1000亿个图像-文本对，是迄今为止最大的视觉语言数据集之一。数据过滤：基本过滤：为了确保数据的质量和多样性，WebLI-100B仅进行了基本的数据过滤，例如移除有害图像和个人身份信息（PII），以保留尽可能多的语言和文化多样性。质量过滤（可选）：研究中还探讨了使用CLIP等模型进行数据过滤，以提高数据质量，但这种过滤可能会减少某些文化背景的代表性。数据处理：文本处理：将图像的alt文本和页面标题作为配对文本，使用多语言mt5分词器进行分词处理，确保文本数据的多样性和一致性。图像处理：将图像调整为224×224像素的分辨率，适应模型的输入要求。

WebLI-100B的项目地址

arXiv技术论文：https://arxiv.org/pdf/2502.07617

WebLI-100B的应用场景

人工智能研究者：用在模型预训练，探索新算法，提升视觉语言模型性能。工程师：开发多语言和跨文化的应用，如图像描述、视觉问答和内容推荐系统。内容创作者：生成多语言的图像描述和标签，提升内容的本地化和多样性。跨文化研究者：分析不同文化背景下的图像和文本，研究文化差异。教育工作者和学生：作为教学资源，学习多模态数据处理和分析。