PaSa – 字节跳动推出的学术论文检索智能体-爱论文

PaSa是什么

PaSa是字节跳动研究团队（ByteDance Research）推出的基于强化学习的学术论文检索智能体。能模仿人类研究者的行为，自动调用搜索引擎、浏览相关论文并追踪引文网络，为用户提供精准、全面的学术论文检索结果。

PaSa的主要功能

自主调用搜索工具：PaSa 能自动调用搜索引擎，根据用户输入的学术问题生成多样化的搜索关键词，并执行多次搜索，确保全面覆盖相关文献。阅读和分析论文内容：PaSa 通过其核心组件 Crawler 和 Selector 实现高效的信息处理。Crawler 负责收集相关论文，包括通过扩展引文网络发现更多潜在相关的文献。Selector 则对收集到的论文进行精读，筛选出真正符合用户需求的文献。选择相关参考文献：PaSa 能从海量文献中筛选出与用户查询最相关的参考文献，提供全面且准确的搜索结果。支持复杂学术查询：PaSa 专为处理复杂的学术问题设计，能理解并处理细粒度的学术查询，例如涉及特定算法或研究方法的问题。强化学习优化：PaSa 使用强化学习方法进行训练，通过合成数据集 AutoScholarQuery 和真实世界查询基准 RealScholarQuery 来提升搜索效率和准确性。高效检索能力：PaSa 的检索速度极快，能在两分钟内完成一次详尽的学术调研。在性能测试中，PaSa 在 Recall@20 和 Recall@50 指标上分别比 Google Scholar 提升了 37.78% 和 39.90%。

PaSa的技术原理

核心组件：PaSa 的核心包括两个主要的 LLM 智能体：Crawler 和 Selector。Crawler：负责通过搜索引擎收集与用户查询相关的学术论文。能生成多样化的搜索关键词，并执行多次搜索以最大化召回率。Selector：负责精读 Crawler 找到的每一篇论文，评估其是否符合用户需求，提高搜索结果的精确性。强化学习优化：PaSa 使用强化学习（RL）和近端策略优化（PPO）算法进行训练，以应对文献搜索中的稀疏奖励和长轨迹问题。训练过程中，PaSa 通过以下方式提升性能：合成数据集：研究团队构建了 AutoScholarQuery 数据集，包含 35,000 个细粒度的学术查询及其对应的相关论文。数据来自顶级人工智能会议的论文。真实世界数据集：为了评估 PaSa 在实际场景中的表现，团队还开发了 RealScholarQuery 数据集，收集真实世界的学术查询。

PaSa的项目地址

项目官网：pasa-agent.aiGitHub仓库：https://github.com/bytedance/pasaarXiv技术论文：https://arxiv.org/pdf/2501.10120

PaSa的应用场景

学术研究中的文献调研：PaSa 可以帮助研究人员快速完成学术论文的检索和调研工作。通过模仿人类研究者的行为，自主调用搜索引擎、阅读论文并追踪引文网络，能在两分钟内完成一次详尽的学术调研。高校科研与教学支持：在高校场景中，PaSa 可以作为科研辅助工具，帮助教师和学生快速获取相关学术资源。教师可以用 PaSa 快速调取学术资源库中的内容，辅助文献综述生成、研究实验设计以及论文翻译润色等工作。知识产权分析：PaSa 的高效检索能力还可以应用于知识产权领域。多任务学习与数据挖掘：南京大学 PASA 大数据实验室的研究表明，PaSa 的底层技术还可以应用于多任务学习和数据挖掘领域。