MV-MATH – 中科院推出的基准数据集，评估模型处理多视觉信息的数学推理能力-爱论文

MV-MATH是什么

MV-MATH 是中科院自动化所提出的新基准数据集，评估多模态大语言模型（MLLMs）在多视觉场景中的数学推理能力。数据集包含2009个高质量的数学问题，每个问题都结合了多个图像和文本，形成了图文交错的多视觉场景。问题分为选择题、填空题和多步问答题三种类型，覆盖了11个数学领域，包括解析几何、代数、度量几何、组合学、变换几何、逻辑、立体几何、算术、组合几何、描述性几何和统计学，分为三个难度级别。

MV-MATH的主要功能

多视觉场景推理：每个问题包含多个图像（2-8张），与文本交织形成复杂场景，更接近现实中的数学问题，可全面评估模型处理多视觉信息的推理能力。多样化数学领域覆盖：涵盖11个数学领域（如解析几何、代数、立体几何等）和3个难度级别，能全面评估模型在不同领域的推理表现。图像关联性分析：首次引入图像相关性标签，将数据集分为相互依赖集（MD）和独立集（ID），可分别评估模型在处理相关和独立图像时的推理能力。教育应用：源于真实的K-12教育场景，可用于开发智能辅导系统，帮助学生通过图文结合的方式解决复杂数学问题。研究工具：为多模态学习研究提供标准化评估工具，帮助研究者识别和改进模型在数学推理中的性能差距。高质量标注：每个样本经至少两名标注者交叉验证，包含问题、答案、详细分析及图像关联性标注，为模型评估提供详尽信息。真实问题收集：问题均来源于真实场景，确保数据集的实用性和可靠性。

MV-MATH的技术原理

相互依赖集（Mutually Dependent Set，MD）：图像之间相互关联，理解一个图像需要参考其他图像。独立集（Independent Set，ID）：图像之间相互独立，可以单独解释。

MV-MATH的项目地址

项目官网：https://eternal8080.github.io/MV-MATH.github.io/Github仓库：https://github.com/eternal8080/MV-MATHarXiv技术论文：https://arxiv.org/pdf/2502.20808HuggingFace数据集：https://huggingface.co/datasets/PeijieWang/MV-MATH

MV-MATH的应用场景

智能辅导系统：MV-MATH 数据集可以用于开发智能辅导系统，帮助学生通过图文结合的方式解决复杂数学问题。多模态学习研究：MV-MATH 为多模态学习研究提供了标准化的评估工具。研究者可以用数据集评估多模态大语言模型（MLLMs）在多视觉场景中的数学推理能力，推动多模态学习技术的发展。性能差距分析：通过广泛的实验，研究者可以识别和改进模型在数学推理中的性能差距。多图推理任务：数据集可以用于开发和优化多图推理任务的解决方案，在复杂的数学问题中处理多个图像和文本信息。自动化评估系统：数据集可以用于评估和优化自动化考试系统，确保其在处理多模态输入时的准确性和可靠性。