LLaVA-o1 – 北大清华联合多所机构推出开源的视觉语言模型-爱论文

LLaVA-o1是什么

LLaVA-o1是北京大学、清华大学、鹏城实验室、阿里巴巴达摩院以及理海大学（Lehigh University）组成的研究团队推出的开源视觉语言模型，基于Llama-3.2-Vision模型构建，能进行自主的多阶段“慢思考”推理。模型基于结构化推理，将问题解决过程明确划分为总结、视觉解释、逻辑推理和结论生成四个阶段，显著提升系统推理能力。在多模态推理基准测试中，LLaVA-o1超越基础模型和其他开闭源模型，展现卓越的性能。

LLaVA-o1的主要功能

多阶段推理：LLaVA-o1进行自主的多阶段推理，包括总结、视觉解释、逻辑推理和结论生成，处理复杂的视觉问题回答任务。结构化思考：模型基于结构化的思考方式，用明确的阶段划分提高推理的系统性和深度。视觉语言整合：整合视觉和语言信息，模型理解和回答涉及视觉内容和文本问题的任务。

LLaVA-o1的技术原理

四阶段推理框架：LLaVA-o1的推理过程被划分为四个阶段，每个阶段都有特定的功能和目的：总结阶段：模型概述即将解决的任务。视觉解释阶段：模型描述图像中与问题相关的元素。逻辑推理阶段：模型进行详细的逻辑分析以推导初步答案。结论阶段：模型基于前面的推理得出最终答案。结构化标签：为支持结构化的推理过程，LLaVA-o1用专门的标签（如

、、、）标记每个阶段的开始和结束。数据集构建：研究团队创建LLaVA-o1-100k数据集，基于GPT-4o生成包含结构化推理注释的样本，支持模型的训练。阶段级束搜索：LLaVA-o1基于一种新颖的推理时扩展技术——阶段级束搜索方法。模型在每个推理阶段生成多个候选结果，并选择最佳结果继续下一个阶段的推理，提高整体推理质量。