LIMA模型——大模型对齐的新方法

人工智能咨询培训老师叶梓转载标明出处

大模型通常在两个阶段进行训练：首先是从原始文本中进行无监督预训练，以学习通用表示；其次是通过大规模的指令微调和强化学习，以更好地适应最终任务和用户偏好。来自Meta AI、卡内基梅隆大学和特拉维夫大学研究人员提出了，通过LIMA模型，对这两种训练阶段的重要性进行了量化。

LIMA（Less Is More for Alignment）是一个65B参数的LLaMa语言模型，它仅通过1,000个精心策划的提示和响应进行标准监督损失微调，而不使用任何强化学习或人类偏好建模。这项研究的核心观点是，大模型的几乎所有知识都是在预训练阶段学到的，而进行高质量的输出只需要有限的指令调整数据。

数据与训练

研究者们提出了“表面对齐假设”，认为大模型的知识和能力几乎完全在预训练期间获得，而对齐则是教会模型在与用户互动时使用哪种格式的子分布。基于这一假设，研究团队收集了1,000个提示和响应的数据集，其中输出（响应）风格一致，但输入（提示）则多样化，旨在模拟一个乐于助人的AI助手的风格。

研究者们从三个社区问答网站收集数据：Stack Exchange、wikiHow和Pushshift Reddit数据集。Stack Exchange包含179个在线社区，每个社区专注于特定主题，其中最受欢迎的是编程（Stack Overflow）。研究者们在采样时应用了质量和多样性控制，从每个分类中抽取200个问题和答案，并对答案进行了自动过滤，以符合有用AI助手的风格。例如，过滤掉那些太短或太长、使用第一人称或引用其他答案的回答。同时，从wikiHow抽取了200篇文章，使用标题作为提示，文章正文作为响应。对于Reddit数据集，研究者们手动选择了r/AskReddit和r/WritingPrompts子集中的示例，因为Reddit上高赞回答往往更倾向于娱乐性内容。

为了进一步多样化数据，研究者们还收集了来自自身（论文作者）的提示。两个作者组分别创建了250个提示，这些提示受到作者自身兴趣或朋友的启发。在200个训练提示中补充了高质量的答案，这些答案由作者自己编写，以保持一致的语气。另外还包括了13个带有毒性或恶意的培训提示。

表格1 展示了不同数据源的概览，并提供了一些统计数据。表格详细列出了训练提示（输入）和响应（输出）的来源，以及测试提示的分布情况。通过这些精心策划的数据，旨在验证即使是数量有限的训练示例，只要质量足够高，也能够有效地对大模型进行对齐。

训练过程始于LLaMa 65B模型，并使用1,000个示例的对齐训练集进行微调。为了区分每个说话者（用户和助手），在每次发言的末尾引入了一个特殊的回合结束标记（EOT）。微调过程中使用了标准的超参数设置，包括15个训练周期、AdamW优化器以及残差连接上的dropout。发现困惑度（perplexity）与生成质量并不相关，因此使用50个示例的开发集手动选择在第5到第10周期之间的检查点。

想要掌握如何将大模型的力量发挥到极致吗？叶老师带您深入了解 Llama Factory —— 一款革命性的大模型微调工具。9月22日晚，实战专家1小时讲解让您轻松上手，学习如何使用 Llama Factory 微调模型。

加下方微信或评论留言，即可参加线上直播分享，叶老师亲自指导，互动沟通，全面掌握Llama Factory。关注享粉丝福利，限时免费录播讲解。

LLaMA Factory 支持多种预训练模型和微调算法。它提供灵活的运算精度和优化算法选择，以及丰富的实验监控工具。开源特性和社区支持使其易于使用，适合各类用户快速提升模型性能。

人类评估与对齐效果分析

在实验设置方面，为了评估LIMA与其他模型的性能，针对每个测试提示生成单一响应，并由众包工人对LIMA与其他基线模型的输出进行比较和偏好选择。此外，还利用GPT-4重复了这一评估过程，以确保评估的一致性。

在生成响应时，采用了核心采样技术，并施加了重复惩罚，同时限制了最大令牌长度。在评估方法上，向评估者展示了每个提示的两个可能响应，并要求他们判断哪个响应更佳或两者是否相当。

图1和图2分别展示了人类和GPT-4的偏好评估结果。尽管Alpaca 65B的训练数据量远超LIMA，但其输出质量却不及LIMA。DaVinci003虽然采用了RLHF训练，但与LIMA相比，只在较小程度上表现更优。Bard在42%的情况下优于LIMA，但LIMA也有58%的情况至少与Bard持平。尽管Claude和GPT-4通常优于LIMA，但LIMA在19%的情况下也优于GPT-4。

在分析部分，通过对50个随机示例的深入分析，进一步评估了LIMA的性能。这些示例被分为未达到要求、满足要求和优秀的三个等级。图3显示了对LIMA在50个测试提示上的分析结果，其中50%的回答被评为优秀，并且能够遵循50个分析提示中的44个。未观察到失败案例中的显著趋势。

图4展示了LIMA模型在不同测试提示下的输出示例，包括分布内、分布外和安全性挑战的示例。这些示例展示了LIMA在遵循训练集内相关示例、处理训练集中不存在的类似任务以及拒绝不安全行为的能力。

在多样性测试中，通过比较Stack Exchange和wikiHow的数据，发现更多样化的Stack Exchange数据能显著提升模型性能。图5展示了使用不同来源的2,000个示例训练的7B模型的性能，其中经过质量过滤的Stack Exchange数据训练的模型性能更高。在质量测试中，使用经过质量过滤的Stack Exchange数据训练的模型比未过滤的数据训练的模型表现更佳。图5同样展示了这一结果。

在数量测试中，即使训练数据量增加16倍，性能也未见显著提升，表明对齐的效果不仅仅取决于数据量，而是更依赖于保持高质量响应的同时增加提示的多样性。图6展示了随着训练示例数量指数级增加，模型性能却趋于平稳的现象。

在多轮对话测试中，尽管LIMA仅在1,000个单轮互动上进行了微调，但其在多轮对话中的表现令人惊讶地连贯。为了进一步提升对话能力，增加了30个多轮对话链到训练集中，并进行了新一轮的微调。图7显示了响应质量的分布，添加对话示例显著提高了生成质量，优秀响应的比例显著提升，失败率也有所下降。这一发现进一步证实了预训练期间学到的能力和通过有限监督调用这些能力的可能性。

这些结果表明，预训练的强大功能以及其相对于大规模指令调整和强化学习方法的重要性。

论文链接：https://arxiv.org/pdf/2305.11206