SimpleQA – OpenAI开源的新基准，用于评估前沿模型的事实准确性-爱论文

SimpleQA是什么

SimpleQA是OpenAI推出的基准测试，用在评估大型语言模型回答简短、寻求事实问题的能力。SimpleQA包含4326个问题，每个问题设计为只有一个正确答案，易于评分。SimpleQA挑战性强，即使是最先进的大模型如o1-preview和Claude Sonnet 3.5的准确率也不到50%。所有问题经过两位独立标注员验证，确保参考答案的准确性和时效性。SimpleQA能评估模型的事实性回答能力，能测量模型的“校准”程度，即模型对自己回答准确性的自我评估能力。SimpleQA的数据集具有多样性，涵盖多个主题，包括历史、科学、艺术等，用在推动更可靠、可信赖的语言模型的发展。

SimpleQA的主要功能

评估事实性回答能力： SimpleQA主要用在测试语言模型回答简短、事实性问题的能力，问题设计为只有一个正确答案。挑战性问题设计：问题对抗性地收集，针对GPT-4等前沿模型，确保测试具有挑战性。易于评分：问题设计让答案易于评定，答案被分类为正确、错误或未尝试。模型自我认知评估：基于评估模型是否“知道自己知道什么”，衡量模型的自我认知能力。校准测量：测量模型对回答准确性的自信程度，即模型是否能准确评估自己的回答。

SimpleQA的技术原理

数据收集与验证：基于AI训练师创建问题和答案对，由另一名AI训练师独立验证答案，确保一致性。高标准问题筛选：问题必须满足特定标准，包括单一答案、答案随时间不变、有证据支持、具有挑战性，且截至2023年可回答。质量控制：用ChatGPT分类器检测违反标准的问题是提高问题质量的步骤之一。多样性和覆盖：基于ChatGPT分类问题主题和答案类型，确保数据集的多样性。评分机制：用提示的ChatGPT分类器对模型的回答进行评分，确定其是否正确、错误或未尝试。性能评估：比较模型在SimpleQA上的表现，评估其在事实性问题回答方面的能力。校准评估：询问模型对答案的置信度，且与实际准确性进行比较，评估模型的校准能力。

SimpleQA的项目地址

项目官网：openai.com/index/introducing-simpleqaGitHub仓库：https://github.com/openai/simple-evals/技术论文：https://cdn.openai.com/papers/simpleqa.pdf

SimpleQA的应用场景

模型开发与测试：开发者用SimpleQA测试和比较不同语言模型的性能，特别是在处理事实性问题时的准确性和可靠性。研究与学术：研究人员探索和发表关于语言模型在事实性回答方面的能力，推动自然语言处理领域的学术研究。教育工具：在教育领域，作为评估教学辅助工具性能的手段，帮助教师了解和选择最适合学生学习需求的语言模型。信息检索系统：在构建或优化搜索引擎和信息检索系统时，评估和提升系统对用户查询的响应质量和准确性。问答系统：对于问答系统（QA系统）的开发，SimpleQA提供标准化的测试集，帮助开发者评估和改进系统的回答质量。