Aligner – 北大推出的残差修正模型对齐技术-爱论文

Aligner是什么

Aligner是北京大学团队提出的大语言模型对齐技术，通过学习对齐答案与未对齐答案之间的修正残差来提升模型性能。采用自回归的 seq2seq 模型，在问题-答案-修正后的答案（Query-Answer-Correction, Q-A-C）数据集上训练，无需依赖复杂的强化学习从人类反馈（RLHF）流程。 Aligner 的核心优势在于高效性和灵活性。作为即插即用的模块，可以直接应用于各种开源和基于 API 的模型，无需访问模型参数。

Aligner的主要功能

修正残差学习：Aligner 作为自回归的 seq2seq 模型，在问题-答案-修正后的答案（Query-Answer-Correction, Q-A-C）数据集上训练，学习对齐与未对齐答案之间的差异，实现了更精准的模型对齐。弱到强泛化：使用小参数量的 Aligner 模型对大参数量的 LLMs 进行微调，可以显著提升强模型的性能。即插即用：Aligner 能对齐如 GPT3.5、GPT4 和 Claude2 等无法获取参数的模型。训练过程：数据收集：从各种开源数据集中获取问题（Query），生成原始答案。答案修正：使用 GPT-4、Llama2-70B-Chat 和人工标注来修正原始答案，符合人类价值观。模型训练：基于修正后的数据集，训练 Aligner 模型，能将原始答案修正为对齐的答案。

Aligner的性能表现

提升帮助性和安全性：实验表明，使用 Aligner-7B 能提高 GPT-4 的帮助性和安全性，分别增加了 17.5% 和 26.9%。弱到强泛化：基于 Aligner-13B 监督下微调 Llama2-70B，帮助性和安全性分别提升了 8.2% 和 61.6%。多模型兼容性：Aligner-7B 对齐提升了包括闭源、开源及安全 / 未安全对齐模型在内的 11 种模型的帮助性和安全性。

Aligner的项目地址

项目官网：https://pku-aligner.github.io/GitHub仓库：https://github.com/PKU-Alignment/alignerHuggingFace模型库：https://huggingface.co/aligner/aligner-7b-v1.0arXiv技术论文：https://arxiv.org/pdf/2402.02416

Aligner的应用场景

多轮对话场景：在多轮对话中，Aligner 可以改善对话的对齐效果，在稀疏奖励的挑战下。人类价值向奖励模型的对齐：Aligner 可以通过特定语料训练，修正前置模型的输出以反映特定的价值观。MoE-Aligner 的流式化和并行处理：通过将 Aligner 专门化处理并集成，可以创建更强大且全面的混合专家（MoE）Aligner。