Google DeepMind 推出通过强化学习实现自我纠正（SCoRe）的训练方法提高模型在复杂数学和编码任务中的准确性

大语言模型（LLMs）在数学问题解决和代码生成等推理和科学领域展现了强大的能力。然而，当前的LLMs在“自我纠正”能力方面表现不佳，尤其是缺乏外部输入的情况下，无法有效地检测和修正自己的错误。这种“自我纠正”能力在没有外部监督的情况下显得尤为重要，因为LLMs往往具备完成任务所需的知识，但不能有效地调用和推理这些知识来修正错误。 Google DeepMind 研究人员开发的一种新方法，称为SCoRe，旨在提高大型语言模型（LLMs）在复杂任务中的自我纠正能力，特别是数学推理和编程任务。 SCoRe（Self-Correction via Reinforcement Learning）是一种新的多轮强化学习（RL）方法，通过自生成数据来训练模型进行多轮自我纠正的强化学习方法。该方法通过两阶段的强化学习过程训练LLMs，使它们能够在没有外部输入或监督的情况下，检测并修正自己的错误。 SCoRe的核心目标是让模型能够在测试阶段“实时”修正其生成的错误答案，而无需依赖外部的反馈。这种能力被称为“内在自我纠正”，特别是在处理推理任务（如数学问题解决和代码生成）时，SCoRe能够帮助模型逐步改进其答案，从而在第二次尝试时生成正确的结果。 SCoRe 解决了什么问题？ SCoRe 主要解决了现有方法在自我纠正领域中的两个关键问题： 分布失配问题 ：现有的监督微调（SFT）方法依赖于训练数据，但这些数据与模型在实际推理时的表现之间存在差异，导致模型无法在推理过程中有效自我纠正。SCoRe 通过多轮强化学习，使用模型自身生成的数据进行训练，从而缓解了这种分布失配问题。 模式塌陷问题 ：传统的自我纠正方法（例如 SFT）往往让模型采用最小编辑策略，即模型只做出最小的修改而避免更大范围的修正，这并不能有效解决错误。SCoRe 通过两阶段训练策略，使用奖励机制引导模型进行更有意义的修正，鼓励模型在多轮尝试中显著改进其答案，而不是仅仅进行微小修改。 SCoRe 方法的核心要点： 自我生成数据与强化学习 ：SCoRe 使用多轮强化学习，使模型能够根据自身生成的数据进行调整，减少对外部数据的依赖，从而提高其在真实任务中的自我纠正能力。 两阶段训练 ： 第一阶段 ：通过初始化训练，模型学习初步的纠正策略，确保它能进行实质性修正，而不是仅仅做出微小调整。 第二阶段 ：强化学习被用来增强模型的自我纠正能力，奖励模型生成更好的修正结果。 显著提升性能 ：在数学推理和编程任务中，SCoRe 在多个基准数据集上展示了显著的性能提升。例如，在数学推理任务中，SCoRe 使模型的自我纠正准确率提高了 15.6% ，在编程任务中提高了 9.1% 。此外，SCoRe 还有效减少了在第二次尝试中将正确答案更改为错误答案的情况。 SCoRe 的核心工作原理是让AI在多次尝试中逐步改正自己的错误，通俗易懂解释： 第一阶段：训练AI学会发现错误 在这个阶段，SCoRe 先训练AI模型生成初始答案，并为它提供学习机会，让它能知道什么时候需要纠正自己的答案。这个阶段的重点是让AI明白哪些地方出错了，并且不会只做一些很小的、无关紧要的修改，而是能够真正找到并改正大的错误。 第二阶段：强化学习，让AI学会纠正自己 在第二阶段，SCoRe 通过一种叫“强化学习”的方法继续训练AI。在这个过程中，AI会通过多次尝试得到反馈。SCoRe 会给AI设置“奖励”，当AI成功改正错误时，AI会得到正面的奖励；如果它把正确答案改成了错误答案，则会受到惩罚。这个机制鼓励AI不断改进自己的答案，而不是仅仅重复第一次的错误。 举个例子 假设AI在解决一个数学问题时第一次出错了，但它有解决问题的所有知识。SCoRe会引导AI回头检查自己的回答，找出错误，并在第二次尝试时修正。每次尝试后，AI会获得反馈（奖励或惩罚），通过这样的多轮练习，AI逐渐学会如何自己找到并修正错误。 SCoRe 与其他方法的区别 传统方法通常需要其他更强的模型或人工帮助AI改正错误，而SCoRe的特别之处在于它完全依赖AI自身生成的数据进行训练，不需要外部干预。通过这种方式，SCoRe克服了以前方法中常见的问题，让AI能够更好地自我学习和改正错误。 关键技术组件 自生成数据 ：SCoRe不依赖于外部监督，而是使用模型自己生成的数据进行训练。这避免了传统监督微调方法中使用人工标注数据时产生的分布失配问题。 多轮尝试机制 ：SCoRe通过多轮尝试，让模型有机会在初次生成答案后，通过分析和判断自己是否出错，在下一次生成中修正错误。这种多轮尝试极大提升了模型的自我纠正能力。 奖励塑形 ：通过在第二次尝试时增加额外的奖励项，SCoRe让模型更倾向于修正错误，而不是保持原有的错误答案不变。这是通过在每次生成后动态调整奖励来实现的。 实验结果 SCoRe 的实验结果显示，它显著提高了 AI 模型在自我纠正方面的表现，尤其是在数学和编程任务中表现尤为突出。以下是一些关键实验结果的总结： 1. 数学任务 (MATH 数据集) 在数学问题解决任务中，SCoRe 的表现远超传统方法。实验显示： 第一轮尝试（Accuracy@t1） ：在模型首次尝试解答时，SCoRe 的准确率为 60.0%。 第二轮尝试（Accuracy@t2） ：经过 SCoRe 的自我纠正，模型在第二轮尝试中的准确率提高到 64.4%。 自我纠正能力提升（Δ(t1, t2)） ：相比于初次尝试，模型通过自我纠正后提升了 4.4% 的准确率。 纠正错误的成功率（Δi→c(t1, t2) ）：SCoRe 纠正错误答案为正确的比例为 5.8% ，优于其他方法。 减少正确答案变成错误的比例（Δc→i(t1, t2) ）：通过SCoRe训练，正确答案被错误修改的概率降低到了 1.4% ，表现非常稳定。 2. 编程任务 (HumanEval 数据集) 在编程问题（代码生成任务）中，SCoRe 也有显著表现： 第一轮尝试（Accuracy@t1） ：SCoRe 的初次准确率为 52.4%。 第二轮尝试（Accuracy@t2） ：通过自我纠正后，准确率提高到 64.6% 。 自我纠正能力提升（Δ(t1, t2) ）：自我纠正后的准确率提升了 12.2% ，显示了SCoRe 在编程任务中的强大效果。 错误纠正成功率（Δi→c(t1, t2) ）：SCoRe 纠正错误代码的成功率为 15.2% ，显著高于其他对比方法。 3. 自我纠正能力与其他方法的对比 SCoRe 与现有的自我纠正方法（如Self-Refine 和 STaR）进行了对比，结果表明 SCoRe 的自我纠正能力明显优于其他方法： 传统方法在第二次尝试时准确率的提升有限，甚至可能会降低，而SCoRe则大幅度提升了准确率。 其他方法在纠正错误答案时经常陷入“只做最小修改”的局限，而SCoRe 能有效规避这一问题，并促使模型进行更加有效的改正。 实验总结 总体而言，SCoRe 在两个任务中的表现显示了其卓越的自我纠正能力： 在数学任务中，它使得模型的自我纠正表现提升了 15.6% ，大幅改善了推理问题的正确率。 在编程任务中，它使得模型的自我纠正准确率提升了 9.1% ，显著提高了代码生成的质量。 SCoRe 的实验结果表明，强化学习方法在提高 AI 模型自我纠正能力方面具有巨大的潜力，尤其是在复杂推理和代码生成任务中。 论文： https://arxiv.org/pdf/2409.12917

Menu

分类目录

Google DeepMind 推出通过强化学习实现自我纠正（SCoRe）的训练方法提高模型在复杂数学和编码任务中的准确性

Related Posts

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM) 让模型更像人类思考

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

Fireworks AI新功能能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

Anthropic 公布了一种全新的 AI 越狱技术可以轻松破解所有前沿模型

INFP：基于音频驱动的双人对话中的互动头像生成能自动区分谁在说话，谁在听

Recommendeds

TryOffDiff ：“虚拟脱衣” 从照片中“摘取”衣服，把它变成标准化的服装图片

MedSAM-2：基于SAM-2 的能够处理多种2D和3D医学图像的模型

路透社：OpenAI 正在开发代号为“Strawberry”的新模型可自主浏览互联网并自主推理

Pipedream：快速连接和集成超过2000多个应用程序

WhisperKit ：只需2行代码即可部署在在Apple设备上的实时语音推理Swift包

苹果推出Swift开发教程无需编码知识也能学

Canva推出了一系列新功能和工具 16 项重要更新介绍

微软为美国情报机构专门定制了一个间谍版的GPT 4

Poe 推出Previews 的新功能可在聊天窗口直接生成Web应用程序并进行互动

最新泄露的细节显示 Google Pixel 9将带来更多 AI 功能包括类似微软的Recall功能

Welcome Back!

Retrieve your password

Add New Playlist

Are you sure want to unlock this post?

Are you sure want to cancel subscription?

Menu

分类目录

Google DeepMind 推出通过强化学习实现自我纠正（SCoRe）的训练方法 提高模型在复杂数学和编码任务中的准确性

Support authors and subscribe to content

加入会员

Related Posts

Recommendeds

Welcome Back!

Retrieve your password

Add New Playlist

Are you sure want to unlock this post?

Are you sure want to cancel subscription?

Google DeepMind 推出通过强化学习实现自我纠正（SCoRe）的训练方法提高模型在复杂数学和编码任务中的准确性