当前位置: 网站首页 >AI教程资讯 >正文

InfiMM-WebMath-40B – 字节联合中科院开源的超大规模多模态数据集

来源:爱论文 时间:2025-01-31 21:10:20

InfiMM-WebMath-40B是什么

InfiMM-WebMath-40B 是字节跳动和中国科学院联合开源的超大规模多模态数据集,旨在提升多模态模型的图文混合推理能力,在数学领域。数据集从 Common Crawl 中提取,经过严格的筛选、清洗和标注,包含 2400 万个网页、8500 万个图像 URL 和 400 亿个文本标记,涵盖了丰富的数学和科学相关内容。InfiMM-WebMath-40B 能显著提升模型在数学推理方面的能力,在 MathVerse 和 We-Math 等基准测试中取得了优异的成绩。

InfiMM-WebMath-40B

InfiMM-WebMath-40B的主要功能

提升数学推理能力: InfiMM-WebMath-40B 包含大量的数学和科学相关内容,包括文本、公式、符号和图像,帮助 MLLMs 学习数学知识,提升其在数学推理方面的能力。理解多模态信息: 该数据集是多模态的,包含文本和图像数据,帮助 MLLMs 学习如何将文本和图像信息结合起来进行推理,更好地理解复杂的数学概念和问题。P2 促进模型应用: 基于 InfiMM-WebMath-40B 预训练的 MLLMs 能更好地应用于数学相关的应用程序,例如数学题库、数学学习工具、数学论文阅读和理解等。

InfiMM-WebMath-40B的技术原理

数据来源: 基于Common Crawl,包含互联网公开网页内容的大型数据库。数据筛选:基于关键词匹配,保留包含数学、公式等特定词汇的页面。 设置阈值条件,例如每个文档中至少包含一定数量的 LaTeX 符号。 用 fastText 进行语言过滤,只保留中英文内容。数据提取:用 Trafilatura 库提取文本内容。 分析网页中的图像 URL,提取与数学内容相关的图像。数据清洗:用 MinHash 等技术进行去重。 采用基于规则的过滤方法,例如去除包含“lorem ipsum”的短文档、过滤掉含有不适当内容的文档及排除包含 Unicode 错误的文档等。数据标注:用 LLaMA3-70B-Instruct 模型对数学内容进行评分,并用 fastText 分类器进行高精度过滤。

InfiMM-WebMath-40B的项目地址

HuggingFace模型库:https://huggingface.co/datasets/Infi-MM/InfiMM-WebMath-40BarXiv技术论文:https://arxiv.org/pdf/2409.12568

InfiMM-WebMath-40B的应用场景

数学题库和评估工具: 开发者训练 MLLMs,使其能够自动生成数学题目、评估学生答案并提供反馈,构建智能化的数学题库和评估工具。数学学习工具和平台: 帮助 MLLMs 更好地理解数学概念和公式,开发出更智能的数学学习工具和平台,例如提供个性化学习建议、解答学生疑问、辅助数学解题等。数学论文阅读和理解: MLLMs 提升对数学论文的理解能力,开发出能够自动摘要、翻译和解释数学论文的工具。数学研究:为数学研究提供数据支持,例如用于训练数学模型、进行数学实验和分析数学数据等。其他科学领域:  InfiMM-WebMath-40B 包含科学相关的内容,例如物理、化学、生物等,训练 MLLMs 理解科学概念、公式和图像,并辅助科学研究和应用。
上一篇:SAM 2.1 – Meta 开源的视觉分割模型
相关资讯 更多+
  • InfiMM-WebMath-40B – 字节联合中科院开源的超大规模多模态数据集
    InfiMM-WebMath-40B – 字节联合中科院开源的超大规模多模态数据集

    InfiMM-WebMath-40B 是字节跳动和中国科学院联合开源的超大规模多模态数据集,旨在提升多模态模型的图文混合推理能力,在数学领域。数据集从 Common Crawl 中提取,经过严格的筛选、清洗和标注,包含 2400 万个网页、8500 万个图像 URL 和 400 亿个文本标记,涵盖了丰富的数学和科学相关内容。

    AI教程资讯 2023-04-14

  • SAM 2.1 – Meta 开源的视觉分割模型
    SAM 2.1 – Meta 开源的视觉分割模型

    SAM 2 1(全称Segment Anything Model 2 1)是Meta(Facebook的母公司)推出的先进视觉分割模型,用于图像和视频。基于简单的Transformer架构和流式记忆设计,实现实时视频处理。SAM 2 1在前代基础上引入数据增强技术,改善对视觉相似物体和小物体的识别,提升遮挡处理能力。

    AI教程资讯 2023-04-14

  • Qwen2vl-Flux – 开源的多模态图像生成模型,支持多种生成模式
    Qwen2vl-Flux – 开源的多模态图像生成模型,支持多种生成模式

    Qwen2VL-Flux是多模态图像生成模型,结合Qwen2VL的视觉语言理解和FLUX框架,基于文本提示和图像参考生成高质量的图像。模型支持多种生成模式,包括变体生成、图像到图像转换、智能修复及ControlNet引导生成,具备深度估计和线条检测功能,实现更精确的图像控制。

    AI教程资讯 2023-04-14

  • ShowUI – 新加坡国立联合微软推出用于 GUI 自动化的视觉-语言-操作模型
    ShowUI – 新加坡国立联合微软推出用于 GUI 自动化的视觉-语言-操作模型

    ShowUI是新加坡国立大学Show Lab和微软共同推出的视觉-语言-行动模型,能提升图形用户界面(GUI)助手的工作效率。模型基于UI引导的视觉令牌选择减少计算成本,用交错视觉-语言-行动流统一GUI任务中的多样化需求,并管理视觉-行动历史增强训练效率。

    AI教程资讯 2023-04-14

最新录入 更多+
确定