南洋理工大学提出Q*框架：可大幅提升大语言模型的多步推理能力

大语言模型（LLMs）在许多自然语言任务中展示了令人印象深刻的能力。然而，在执行多步推理时，自动回归生成过程使得LLMs容易产生错误、幻觉和不一致的陈述。 Skywork AI和南洋理工大学提出了一种通用、灵活的框架：Q* ，用于通过深思熟虑的规划来指导大语言模型（LLMs）的解码过程，以改进多步推理能力。通过学习一个即插即用的Q值模型作为启发函数，Q*能够有效地指导LLMs选择最有希望的下一步，而无需为每个任务微调LLMs，从而避免了大量的计算开销和可能的性能退化。 简单来说就是：Q* 是一种帮助大语言模型（LLMs）更好地完成复杂推理任务的工具。 它就像是给模型加上一个智能助手，在每一步推理时提供建议，让模型知道该怎么走下一步。 Q*的主要特性 通用性 ：Q*框架能够适用于各种推理任务，而不依赖于特定领域的知识来设计启发函数。 灵活性 ：通过即插即用的Q值模型，Q*可以在不同的推理任务中进行无缝应用，而不需要对LLMs进行大规模的微调。 高效性 ：Q*在每一步推理时仅考虑单步扩展，而不是进行全面的回滚或模拟，显著减少了计算开销。 解决了什么问题？ 减少推理中的错误 ： 由于LLMs的自动回归生成特性，在多步推理过程中，任何一个步骤的错误都会传递并放大，导致最终结果的不准确和不一致。 传统方法如细致提示和奖励模型虽然能改善LLMs的性能，但通常需要大量的领域知识和计算资源。 也就是当LLMs进行多步推理时，一个小错误可能会导致整个推理过程都出错。Q*可以帮助模型在每一步选择最有可能正确的路径，减少出错的机会。 降低计算资源的消耗 ： 现有方法如细调LLMs或使用蒙特卡罗树搜索（MCTS）等，需要大量的计算资源和任务特定的启发函数设计，难以扩展到新任务。 Q*通过即插即用的Q值模型，避免了每个任务都要重新调整模型，节省了大量计算资源。从而避免了对LLMs进行逐任务微调，从而减少了计算开销。 Q*框架具体方法 1. 将多步推理形式化为马尔科夫决策过程（MDP） Q*框架首先将LLMs的多步推理过程视为一个马尔科夫决策过程（MDP）。这意味着将推理过程分解成一系列状态（state）、动作（action）和奖励（reward）。具体来说： 状态（state） ：当前已经生成的部分推理步骤和输入问题。例如，假设问题是“2+2等于多少”，当前状态可能是“输入问题：2+2；已生成步骤：计算2+2”。 动作（action） ：模型下一步的推理。例如，当前状态下的动作可能是“生成步骤：结果为4”。 奖励（reward） ：评价动作的好坏，通常基于最终结果的正确性。例如，如果最终答案是正确的，奖励就是1，否则是0。 2. 估计最优Q值 Q*框架的核心是估计每个状态-动作对的Q值，这个Q值表示在当前状态下执行某个动作的期望回报。估计Q值的方法有多种，主要包括： 离线强化学习 ：从已有的数据中学习Q值。具体方法是使用Fitted Q-iteration算法，通过不断迭代来逼近最优Q值。 回滚（Rollout） ：从当前状态开始，随机或使用蒙特卡罗树搜索（MCTS）进行推理，得到多个可能的推理路径，并选择回报最高的路径来估计Q值。 更强LLMs的完成 ：使用更强的LLMs（如GPT-4）从当前状态完成整个推理过程，得到最终的回报来估计Q值。 3. 使用A*搜索算法进行审慎规划 一旦有了Q值估计，Q* 框架使用A 搜索算法来进行推理。A*搜索是一种启发式搜索方法，它会优先选择那些看起来最有希望的路径。具体步骤如下： 初始化 ：将输入问题作为起始状态，将其加入开放列表（open list）。 选择状态 ：从开放列表中选择f值最大的状态进行扩展，f值是状态的聚合效用（g值）和启发值（h值）的加权和。 扩展状态 ：对于选中的状态，生成所有可能的下一步动作，并计算新状态的f值，将新状态加入开放列表。 终止条件 ：当达到目标状态（如得到正确答案）时，终止搜索，返回最终的推理路径。 通俗易懂的解释 像导航一样指导模型 ： 想象一下，你在陌生的城市开车，Q* 就像是你的GPS导航系统。每到一个路口，它会告诉你哪条路最有可能是正确的，并指导你前进。 在这里，“路口”就是模型在推理过程中的每一步，“路线”就是模型可以选择的不同推理路径。 估计每一步的价值 ： Q* 会估计每个可能的推理步骤的“价值”，这些价值帮助模型决定下一步应该怎么做。 这个过程就像导航系统计算每条路线到达目的地的最快时间，然后推荐最佳路线。 使用A*搜索算法 ： A*搜索算法是一种智能搜索方法，它会优先选择那些看起来最有希望的路径，就像导航系统优先推荐畅通无阻的路线一样。 Q* 使用A*算法，在每一步选择最可能正确的推理路径，直到完成整个推理过程。 举个例子 假设你让一个模型解决一个复杂的数学问题，这个问题需要多步计算才能得出答案。传统的模型可能会在某一步出错，从而影响最终答案。而使用Q* 后，模型在每一步都会得到“智能助手”的建议，知道哪条路径最有可能是正确的。这样，即使某一步有多个选择，Q* 也能帮模型选出最优的一步，最终正确地解决问题。 实验结果 Q* 框架在多个数据集上进行了实验验证，包括GSM8K（小学数学问题）、MATH（高中数学竞赛题目）和MBPP（编程任务）。实验结果表明，Q 框架显著提升了LLMs的多步推理能力。例如，在GSM8K数据集上，使用Q*的模型准确率提升到了80.8%。 1. GSM8K 数据集 GSM8K 数据集包含小学数学问题，要求模型逐步推理得到正确答案。实验中，使用了 Llama-2-7b 模型，并在不同设置下进行比较。结果如下表所示： 从表中可以看出，使用 Q* 框架（尤其是结合 PRM 和 QVM）的 Llama-2-7b 模型在 GSM8K 数据集上的表现显著优于其他对比方法，准确率达到 80.8%。 2. MATH 数据集 MATH 数据集包含高中数学竞赛题目，要求模型能够处理复杂的数学推理任务。实验中使用了 Llama-2-7b 和 DeepSeek-Math-7b 模型，结果如下： 结果显示，在MATH数据集上，使用Q* 方法的Llama-2-7b模型的准确率达到49.1%，优于Best-of-N方法。同时，基于DeepSeek-Math-7b模型的Q 方法准确率达到55.4%，超过了许多封闭源模型如Gemini Ultra（4-shot），证明了Q*方法在复杂数学推理任务中的有效性。 3. MBPP 数据集 MBPP 数据集包含编程任务，要求模型生成正确的代码。实验中使用了 CodeQwen1.5-7b-Chat 模型，结果如下： 结果表明，Q* 框架在编程任务中的表现同样优越，CodeQwen1.5-7b-Chat 模型在 MBPP 数据集上的准确率达到了 77.0%。 结论 本文提出的Q 框架是一种通用、灵活且高效的方法，用于改进大语言模型（LLMs）在多步推理任务中的表现。通过将多步推理过程形式化为马尔可夫决策过程（MDP）并结合A 启发式搜索算法，Q*能够在不进行微调的情况下，利用即插即用的Q值模型有效地指导LLMs选择最优的推理步骤。以下是主要结论： 通用性 ： Q*框架不依赖于领域特定的启发函数设计，可以应用于广泛的推理任务，包括数学推理和代码生成。 通过学习从人类反馈或更强的LLMs中获得的Q值模型，Q*能够适应不同类型的任务。 高效性 ： Q 框架通过启发式搜索（如A 算法）引导LLMs在推理过程中选择最优步骤，显著提高了推理的准确性。 由于Q*仅考虑单步启发，而非完整的模拟回滚（如MCTS），其计算成本较低且执行速度较快。 性能提升 ： 在GSM8K、MATH和MBPP数据集上的实验结果显示，Q*方法在所有测试任务中都显著提升了LLMs的推理能力。 尤其在复杂的数学推理和代码生成任务中，Q*框架展示了优于现有方法的性能，达到了更高的准确率。 无须微调 ： Q*框架无需对LLMs进行微调，这避免了微调带来的计算开销和其他任务性能退化的风险，显示出更高的实用性和灵活性。 未来工作 未来的研究可以在以下几个方面进一步扩展和改进Q*框架： 进一步优化Q值模型 ： 探索更高效的Q值估算方法，以提高Q*框架在不同任务中的适应性和性能。 扩展任务范围 ： 将Q*框架应用于更多类型的复杂推理任务，验证其通用性和适应性。 实时应用 ： 探讨Q*框架在实际应用中的实时性能，确保其在实际场景中的高效性和可靠性。 论文： https://arxiv.org/pdf/2406.14283 背景知识 马尔科夫决策过程（MDP）是什么？ 马尔科夫决策过程（Markov Decision Process，简称MDP）是一个数学框架，用于描述决策问题，特别是那些涉及多步决策和不确定性的情况。它广泛应用于人工智能、机器人控制、经济学等领域。MDP由以下几个关键要素组成： 状态（State, S） ： 状态描述了系统在某一时刻的情况。例如，在一个迷宫游戏中，状态可以表示玩家当前的位置。 动作（Action, A） ： 动作是系统在每个状态下可以执行的选择。不同的动作会将系统从一个状态转移到另一个状态。例如，在迷宫游戏中，动作可以是“向上移动”、“向下移动”、“向左移动”或“向右移动”。 状态转移函数（State Transition Function, T） ： 状态转移函数描述了在执行某个动作后，系统从一个状态转移到另一个状态的概率。例如，如果玩家在迷宫中向上移动，有90%的概率到达上一个位置，有10%的概率遇到障碍留在原地。 奖励函数（Reward Function, R） ： 奖励函数定义了每次状态转移后所获得的奖励。奖励可以是正的（例如，达到目标位置）或负的（例如，撞到障碍）。它用来衡量动作的好坏。 折扣因子（Discount Factor, γ） ： 折扣因子是一个介于0和1之间的值，用来表示未来奖励的重要性。值越接近1，表示未来的奖励与当前奖励同等重要；值越接近0，表示未来的奖励相对不重要。 MDP 的工作原理 在MDP中，决策者（例如，一个机器人或一个AI代理）通过选择动作来改变系统的状态，目标是最大化累积奖励。具体步骤如下： 选择动作 ： 在当前状态下，决策者选择一个动作。 状态转移 ： 根据状态转移函数，系统转移到下一个状态。 获得奖励 ： 根据奖励函数，决策者获得相应的奖励。 更新状态 ： 系统更新为新的状态，决策者继续选择下一个动作。 通过不断重复这些步骤，决策者试图找到一个策略（Policy），即在每个状态下选择动作的规则，从而在长期内获得最大的累积奖励。 示例 以迷宫游戏为例： 状态 ：玩家在迷宫中的位置。 动作 ：移动方向（上、下、左、右）。 状态转移函数 ：根据玩家选择的动作和迷宫的布局，计算玩家移动到新位置的概率。 奖励函数 ：到达目标位置获得正奖励，撞到墙壁获得负奖励。 折扣因子 ：通常设为接近1的值，表示未来的奖励同样重要。 总结 马尔科夫决策过程（MDP）是描述和解决多步决策问题的强大工具，它通过状态、动作、状态转移函数、奖励函数和折扣因子这五个要素来系统地处理不确定性和优化决策。

Menu

分类目录

南洋理工大学提出Q*框架：可大幅提升大语言模型的多步推理能力

Related Posts

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM) 让模型更像人类思考

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

Fireworks AI新功能能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

Anthropic 公布了一种全新的 AI 越狱技术可以轻松破解所有前沿模型

INFP：基于音频驱动的双人对话中的互动头像生成能自动区分谁在说话，谁在听

Recommendeds

EchoMimic：通过音频和面部标志生成逼真的音画同步肖像视频

NVIDIA 发布 Nemotron-4 340B 开源模型主要用于生成高质量的合成数据

Napkin AI ：一键将任意文本转换成信息图、流程图、图表等视觉内容

苹果开发出能 “看 “懂屏幕上下文的人工智能不需要依赖屏幕截图

换脸应用 FaceFusion 升级为 “面部操控平台” 支持面部表情恢复迁移编辑

生数科技发布可生成最长 16 秒、1080P 视频的类Sora模型：Vidu

微软文本转语音虚拟数字人功能上线可以创建实时互动的数字人

Dynamic Typography ：“动态排版”技术可以让文字变成动画

Perplexity 与 SoundHound AI 合作为汽车带来在线智能语音助手

OpenAI 推出 GPT-4o mini 取代GPT 3.5 性能超越GPT 4 而且更快更便宜

Welcome Back!

Retrieve your password

Add New Playlist

Are you sure want to unlock this post?

Are you sure want to cancel subscription?

Menu

分类目录

南洋理工大学提出Q*框架：可大幅提升大语言模型的多步推理能力

Support authors and subscribe to content

加入会员

Related Posts

Recommendeds

Welcome Back!

Retrieve your password

Add New Playlist

Are you sure want to unlock this post?

Are you sure want to cancel subscription?