Step-R1-V-Mini – 阶跃星辰最新推出的多模态推理模型-爱论文

Step-R1-V-Mini是什么

Step-R1-V-Mini 是阶跃星辰最新推出的多模态推理模型。支持图文输入和文字输出，具备良好的指令遵循和通用能力，能高精度感知图像完成复杂推理任务。模型在视觉推理领域表现突出，同时在数学、代码和文本推理方面也处于第一梯队。采用多模态联合强化学习，基于 PPO 策略在图像空间引入可验证奖励机制，提升泛化性和鲁棒性。通过多模态合成数据训练，有效解决了训练中的跷跷板问题。

Step-R1-V-Mini的主要功能

多模态输入与输出：支持图文输入与文字输出，能处理图像和文字信息，以文字形式输出推理结果，具备良好的指令遵循和通用能力。高精度图像感知与推理：能高精度感知图像并完成复杂推理任务，例如通过图像识别特定地点、分析美食图片并生成详细菜谱等。在 MathVision 视觉推理榜单中位列国内第一。数学问题求解：能构建合理的推理链，对复杂数学问题进行规划和逐步求解，包括奥数难题和几何题目。逻辑推理分析：自主尝试多种解题思路，自我反问以确保枚举出所有良好解决方案，在交卷前检查有无遗漏。复杂算法题解答：能正确解答 LeetCode 技术平台上难度评级为“Hard”的算法题。代码逻辑构建：逐步分析用户需求和意图，构建代码逻辑，在代码写作中穿插对当前代码片段的分析和验证。文学创作：深入理解用户表达需求，分析创作主题、文学题材等要求，赋予事物人类情感层面的象征意义，增加个性化、创新的表达风格。

Step-R1-V-Mini的技术原理

多模态联合强化学习：Step-R1-V-Mini 基于 PPO（Proximal Policy Optimization）策略的强化学习方法。PPO 是一种 On-Policy 算法，通过在线生成样本实时更新模型。在图像空间，模型引入了可验证奖励机制（verifiable reward），解决图片空间推理链路复杂、容易产生混淆的相关和因果推理错误。相比传统的 DPO（Direct Preference Optimization）等方法，PPO 在处理图像空间的复杂链路时更具泛化性和鲁棒性。高质量多模态数据合成：由于多模态数据的反馈信号相对难以获得，Step-R1-V-Mini 设计了大量基于环境反馈的多模态数据合成链路。通过合成可规模化训练的多模态推理数据，结合基于 PPO 的强化学习训练，模型能同步提升文本和视觉的推理能力。有效避免了训练中的“跷跷板”问题，即不同模态能力此消彼长的问题。冷启动与多阶段强化学习：Step-R1-V-Mini 的训练过程还涉及冷启动和多阶段强化学习。首先，通过收集高质量的冷启动数据（如 CoT 数据）对基础模型进行微调，得到初始模型。然后，基于模型进行大规模的强化学习训练，使其涌现推理能力。接着，使用训练后的模型生成高质量的 SFT 数据，混合其他领域的数据，再次进行 SFT 训练。最后，使用所有领域的数据进行最终的强化学习，得到最终的模型。

如何使用Step-R1-V-Mini

访问阶跃AI网页端：Step-R1-V-Mini 已正式上线阶跃AI，可以访问官方网站直接选择模型进行推理任务。调用API接口：对于开发者或企业用户，Step-R1-V-Mini 在阶跃星辰开放平台提供了API接口，可以通过访问阶跃星辰开放平台获取详细的API文档和调用方法。视觉推理：用户可以上传图像并输入相关问题，模型能高精度感知图像并完成复杂推理任务，例如识别图像中的地点、物体数量计算、菜谱识别等。数学与逻辑推理：输入数学问题或逻辑推理题目，模型能构建合理的推理链并逐步求解。

Step-R1-V-Mini的应用场景

图像识别与分析：能高精度感知图像并完成复杂推理任务。模型可以迅速识别图中元素，结合颜色、物体等信息，综合判断出地点为温布利体育场，给出对战双方的可能信息。物体数量计算：输入一张含有不同形状、不同颜色、不同位置的物体摆放图，模型能逐一识别并进行逻辑推理，最终得出剩余物体的数量。菜谱识别：输入一张美食图，模型能精准识别菜品和蘸料，详细列出具体用量。多模态数融合：能处理包含文本和图像的多模态数据，生成综合的推理结果。跨模态推理：将图像转换为形式化的文本描述，使语言模型能够精确地处理和推理图像。