当前位置: 网站首页 >AI教程资讯 >正文

rStar-Math – 微软推出的小模型复杂推理与自进化SLMs的创新技术

来源:爱论文 时间:2025-01-13 12:44:32

rStar-Math是什么

rStar-Math是微软亚洲研究院推出的创新研究项目,基于蒙特卡洛树搜索(MCTS)驱动的深度思考,使小型语言模型(SLMs)在数学推理方面达到甚至超越OpenAI大型模型的水平。rStar-Math不依赖于从更高级模型的数据蒸馏,是用自我进化的深度思考提升模型性能。rStar-Math引入三种创新方法:代码增强的逐步验证推理轨迹合成、基于Q值的过程偏好模型(PPM)训练方法,及四轮自我进化的训练策略。rStar-Math在MATH基准测试中将Qwen2.5-Math-7B的准确率从58.8%提高到90.0%,在AIME 2024测试中平均解决53.3%的问题,超越OpenAI的o1-preview模型。rStar-Math展示了模型的内在自我反思能力,在推理过程中识别并纠正错误的步骤。

rStar-Math

rStar-Math的主要功能

生成高质量的数学推理轨迹:基于蒙特卡洛树搜索(MCTS)生成逐步验证的推理轨迹,确保每个步骤的正确性和高质量。自我进化:用四轮自我进化,逐步提升策略模型和过程偏好模型(PPM)的性能,处理更复杂的数学问题。提高模型的准确率:在多个数学基准测试中显著提高模型的准确率,例如在MATH基准测试中将Qwen2.5-Math-7B的准确率从58.8%提高到90.0%。自我反思能力:模型能在推理过程中识别并纠正错误的步骤,展现出自我反思的能力。

rStar-Math的技术原理

代码增强的逐步验证推理轨迹合成MCTS驱动的深度思考:将复杂的数学问题分解为多个单步生成任务,基于MCTS逐步构建搜索树,生成推理轨迹。代码执行验证:策略模型生成自然语言(NL)推理步骤和相应的Python代码。Q值标注:基于终端引导标注和PPM增强标注两种方法,为每个步骤自动分配Q值,指导MCTS节点选择和识别高质量步骤。过程偏好模型(PPM)训练方法避免直接使用Q值:传统的Q值作为奖励标签存在噪声和不精确的问题。rStar-Math通过构建步骤级的正负偏好对,使用成对排名损失来训练PPM,提高标签的可靠性。偏好对构建:对于每个步骤,选择Q值最高的两个步骤作为正例,Q值最低的两个步骤作为负例。PPM通过这些偏好对进行训练,预测每个步骤的奖励标签。四轮自我进化初始强策略模型:第一轮用DeepSeek-Coder-V2-Instruct作为初始策略模型,进行MCTS rollout生成训练数据。可靠PPM训练:第二轮用更新后的策略模型进行更可靠的Q值标注,训练第一个可靠的PPM。PPM增强MCTS:第三轮用可靠的PPM进行MCTS,生成更高质量的推理轨迹,覆盖更多的数学和竞赛级问题。解决挑战性问题:第四轮增加MCTS rollout次数和不同的随机种子,提高对竞赛级问题的覆盖率。

rStar-Math的项目地址

arXiv技术论文:https://arxiv.org/pdf/2501.04519

rStar-Math的应用场景

教育辅导:为学生提供个性化的数学学习辅导,逐步解决复杂的数学问题,提高解题能力和理解力。科研支持:辅助数学家和科学家进行复杂的数学问题探索,生成初步的解题思路和验证步骤,加速研究进程。金融科技:在金融风险评估和量化交易中,基于精确的数学模型和推理,预测市场风险和优化交易策略。工程设计:在工程设计和系统优化中,用数学推理优化系统参数,提高系统的性能和可靠性。数据分析:在企业数据分析中,基于数学模型和推理,从大量数据中挖掘有价值的信息,进行市场预测和业务决策支持。
上一篇:SPAR3D – Stability AI等机构推出的单试图重建 3D 网络模型
相关资讯 更多+
  • 星火纪要 – 科大讯飞推出的会议交流总结和分析平台
    星火纪要 – 科大讯飞推出的会议交流总结和分析平台

    星火纪要是科大讯飞推出的集转录、总结、翻译、分析为一体的音视频处理平台,广泛应用于通用会议、访谈、销售、培训等场景。能帮助个人高效总结会议重点内容,提升工作学习效率;辅助企业从众多会议中洞察趋势与共性问题,进行更准确的组织决策。

    AI教程资讯 2023-04-14

  • Hallo3 – 复旦联合百度开源的高动态与真实感肖像动画生成框架
    Hallo3 – 复旦联合百度开源的高动态与真实感肖像动画生成框架

    Hallo3是复旦大学和百度公司联合推出的,基于扩散变换器网络(Diffusion Transformer Networks)的肖像图像动画技术,能生成高度动态和逼真的视频。Hallo3基于预训练的变换器视频生成模型,有效解决现有方法在处理非正面视角、动态对象渲染和生成沉浸式背景方面的挑战。

    AI教程资讯 2023-04-14

  • rStar-Math – 微软推出的小模型复杂推理与自进化SLMs的创新技术
    rStar-Math – 微软推出的小模型复杂推理与自进化SLMs的创新技术

    rStar-Math是微软亚洲研究院推出的创新研究项目,基于蒙特卡洛树搜索(MCTS)驱动的深度思考,使小型语言模型(SLMs)在数学推理方面达到甚至超越OpenAI大型模型的水平。rStar-Math不依赖于从更高级模型的数据蒸馏,而是用自我进化的深度思考提升模型性能。

    AI教程资讯 2023-04-14

  • SPAR3D – Stability AI等机构推出的单试图重建 3D 网络模型
    SPAR3D – Stability AI等机构推出的单试图重建 3D 网络模型

    SPAR3D是Stability AI和伊利诺伊大学香槟分校推出的,先进的单图生成3D模型方法,能从单张图像中高效重建出高质量的3D对象。SPAR3D基于两阶段设计,第一阶段用点扩散模型生成稀疏的3D点云,第二阶段结合采样的点云和输入图像生成高度详细的网格。SPAR3D结合回归模型和生成模型的优势,能准确重建图像中的可见表面,又能合理生成被遮挡部分的几何和纹理细节。

    AI教程资讯 2023-04-14

最新录入 更多+
确定