当前位置: 网站首页 >AI教程资讯 >正文

OpenR – 伦敦大学联合多所高校推出提升大模型推理能力的框架

来源:爱论文 时间:2025-02-20 09:09:46

OpenR是什么

OpenR是一个由伦敦大学学院(UCL)、上海交通大学、利物浦大学、香港科技大学(广州)和西湖大学联合推出的一个开源框架,结合搜索、强化学习和过程监督提升大型语言模型(LLM)的推理能力。框架受到OpenAI的o1模型的启发,模型基于在推理过程中整合强化学习显著提高模型的推理能力。OpenR是第一个提供集成技术开源实现的框架,支持LLM基于有效的数据获取、训练和推理路径实现高级推理。OpenR支持在线强化学习训练和多种搜索策略,遵循测试时扩展法则,支持模型在测试时通过生成或搜索方式提供精细化的输出。OpenR提供一个自动化的数据管道,从结果标签中提取推理步骤,减少人工标注的工作量,同时确保收集有价值的推理信息。

OpenR

OpenR的主要功能

集成训练与推理:将数据获取、强化学习训练(在线和离线)及非自回归解码集成在一个统一平台。过程奖励模型(PRM):在训练期间基于策略优化技术改进LLM策略,在解码阶段引导LLM的搜索过程。强化学习环境:将数学问题建模为马尔可夫决策过程(MDP),基于强化学习方法优化模型策略。多策略搜索与解码:支持多种搜索算法,如Beam Search、Best-of-N,结合PRM进行的引导搜索和评分。数据增强与自动化标注:基于自动化方法生成合成样本,减少人工标注依赖,提高数据收集效率。

OpenR的技术原理

过程奖励模型(PRM):PRM用在评估解决方案步骤的正确性,基于监督学习训练,将正确或错误的判定作为分类标签,预测每一步的后续标记。策略迭代:在训练期间,PRM基于策略优化技术如策略迭代改进LLM策略,在解码阶段,PRM引导LLM的搜索过程,让推理朝着更有效的结果发展。马尔可夫决策过程(MDP):将数学问题转换为MDP,由状态、动作和奖励组成,模型生成推理步骤作为动作,根据当前状态和动作决定下一个状态。强化学习:用近端策略优化(PPO)和群体相对策略优化(GRPO)等算法进行在线强化学习训练,优化模型生成的语言输出。搜索算法:在解码阶段,用PRM评估每个解决步骤的准确性,结合语言模型进行引导搜索和多次生成的评分或投票。

OpenR的项目地址

项目官网:openreasoner.github.ioGitHub仓库:https://github.com/openreasoner/openr技术论文:https://github.com/openreasoner/openr/blob/main/reports/OpenR-Wang.pdf

OpenR的应用场景

数学问题求解:OpenR解决数学问题,基于推理步骤的生成和评估,找到正确的解答路径。代码生成和调试:在软件开发中,OpenR帮助生成代码片段,或者调试过程中查找和修正代码中的错误。自然语言处理(NLP)任务:OpenR用在机器阅读理解、问答系统、文本摘要等需要深入理解文本和逻辑推理的NLP任务。教育辅助:在教育领域,OpenR作为辅助工具,帮助学生理解复杂的概念和解题步骤,提供个性化的学习路径。自动化客户服务:在客户服务领域,OpenR基于推理用户的问题和需求,提供准确的答案和解决方案。
上一篇:Agent-S – 基于图形用户界面实现人机交互自动化的代理框架
相关资讯 更多+
  • OpenR – 伦敦大学联合多所高校推出提升大模型推理能力的框架
    OpenR – 伦敦大学联合多所高校推出提升大模型推理能力的框架

    OpenR是一个由伦敦大学学院(UCL)、上海交通大学、利物浦大学、香港科技大学(广州)和西湖大学联合开源的全链条训练框架,旨在提升大型语言模型(LLM)的复杂推理能力。OpenR集成过程奖励模型(PRM)训练、强化学习、多种搜索框架,基于模型方法超越传统的自回归方法。

    AI教程资讯 2023-04-14

  • Agent-S – 基于图形用户界面实现人机交互自动化的代理框架
    Agent-S – 基于图形用户界面实现人机交互自动化的代理框架

    Agent-S 是创新的代理框架,旨在基于图形用户界面(GUI)实现人机交互的自动化。Agent-S 基于模拟人类的操作方式,用鼠标和键盘直接与计算机交互,处理复杂的多步骤任务。Agent-S 引入经验增强的分层规划方法,结合在线网络知识和内部记忆,将复杂任务分解为可管理的子任务。

    AI教程资讯 2023-04-14

  • Adobe Firefly – Adobe推出的系列创意生成式AI模型
    Adobe Firefly – Adobe推出的系列创意生成式AI模型

    Adobe Firefly 是 Adobe 推出的一系列创意生成式 AI 模型,旨在帮助用户扩展其天生的创造力。这些模型集成在 Adobe 的旗舰应用程序和 Adobe Stock 中,支持的功能包括图像、矢量图形和设计模型,以及最新的视频模型 。

    AI教程资讯 2023-04-14

  • Augmented Physics – 将教科书静态图表生成交互式物理模拟的AI技术
    Augmented Physics – 将教科书静态图表生成交互式物理模拟的AI技术

    Augmented Physics是一个创新的教育工具,基于集成机器学习技术,将物理教科书中的静态图表转换成互动式和嵌入式的物理模拟。工具基于先进的计算机视觉技术,比如Segment Anything和多模态大型语言模型(LLM),让用户能半自动地从教科书中提取图表,生成可交互的仿真。

    AI教程资讯 2023-04-14

最新录入 更多+
确定