OpenAI 首席科学家MIT演讲：揭示 o1模型训练核心激励模型学习是培养 AGI 的最佳方式

OpenAI 首席科学家，也是OpenAI o1模型团队的主要成员Hyung Won Chung，在 MIT 的演讲分享中，提出了“不要教导，要激励”的模型训练理念，他认为通过激励模型学习是培养 AGI 系统通用技能的最佳方式。 传统的逐一教导任务方法不适用于大规模任务，反而通过激励结构，如“下一步标记预测”，可以有效促进模型自发学习通用技能。虽然激励机制对人类而言可能需要更长时间，但对于机器可以通过增加计算资源即可加速学习。 在他的演讲中，他提出了类比“教人钓鱼”的方式，强调激励学习的重要性： “授人以鱼，不如授人以渔”，但是更进一步的激励应该是：“让他知道鱼的美味，并让他保持饥饿”，这样他就会主动去学习如何钓鱼。 在这个过程中，他还会学会其他技能，如耐心、阅读天气、了解鱼类等。而其中有些技能是通用的，可以应用到其他任务中。 通过激励来教导比直接教导可能要花费更多时间。对于人类来说确实如此，但对机器来说，可以增加计算量以缩短时间。因为机器可以通过更多的计算资源克服人类时间上的限制，从而在专门领域表现得比专家更好。 这就像在《龙珠》中，有个“精神与时间之屋”，在里面训练一年，外面只过一天，倍率是365。对于机器来说，这个倍数要高得多。 因此，它认为通过高效的计算，通才模型在专门领域中也能超越专家。 这次演讲深入探讨了如何通过 扩展（Scaling）和激励机制 来推动 通用智能 的开发。Hyung Won Chung 分享了在 OpenAI 的研究经验，并讨论了目前AI领域的核心挑战和未来方向。 以下是演讲主要内容总结： 1. 通用智能 vs. 专用智能 Hyung Won Chung 强调了 通用智能 （General Intelligence）与 专用智能 （Specialized Intelligence）的区别。专用智能模型是为特定任务设计的，适合处理单一任务，而通用智能模型能够处理广泛的任务，适应各种未知场景。 由于通用智能要求模型具备更强的适应能力，研究者不可能为模型教授每个具体任务。相反，Hyung Won Chung 认为， 通过弱激励机制 ，让模型在大规模数据和计算资源的驱动下自主学习各种技能，才是通往通用智能的可行途径。 2. 扩展与计算能力的关键作用 Hyung Won Chung 展示了一个重要的数据点：计算能力以指数级增长，成本持续降低。这意味着随着时间的推移， 更多的计算资源 变得可用，这为AI研究提供了巨大的机会。 他指出，AI研究者的工作是利用这种不断扩大的计算能力，设计 可扩展的算法 ，使模型能够随着计算资源的增加而自动提升性能。与此相对，那些高度结构化的模型虽然在初期可能表现较好，但在规模化时往往会遇到瓶颈。 3. 弱激励学习（Weak Incentive Learning） 目前大规模语言模型，如GPT-3和GPT-4，使用的是 弱激励学习 ，例如通过 下一个词预测任务 来驱动模型的训练。Hyung Won Chung 提出，通过这种任务，模型不仅学会了语言，还掌握了推理、数学和编码等技能，尽管这些技能并没有被直接教授。 他进一步指出，与其直接教给模型某种技能，最好的方法是通过提供 弱激励 ，让模型在面对大量任务时自主发展出解决问题的通用能力。例如，通过训练模型进行下一个词的预测，模型不但学会了语言结构，还学会了如何在没有明确指令的情况下推理出复杂答案。 4. 涌现能力（Emergent Abilities） Hyung Won Chung 详细讨论了 涌现能力 这一现象。随着模型规模的扩大，模型在解决问题时往往会自发地表现出新能力。这些能力并非被人为编码，而是通过模型的自我学习在训练过程中自然涌现出来的。 他用 大规模语言模型 的例子说明了这一点。在没有直接教授推理或数学的情况下，GPT-4等模型能够表现出复杂的推理能力和数学计算能力。这表明， 涌现能力 是随着模型规模扩展而自然发生的，尤其是在面对广泛的任务时。 5. 激励结构的设计 Hyung Won Chung 提倡为AI模型设计更复杂的 激励结构 。通过引入更丰富的奖励机制，模型可以学会更高层次的能力。例如，Hyung Won Chung 提出，为了解决语言模型中的“幻觉问题”（hallucination），可以设计奖励结构，使得模型不仅仅追求回答问题的正确性，还要学会在不确定的情况下说“不知道”。 他指出，通过激励结构，模型可以学会如何判断自己是否知道答案，这种能力对提高模型的可靠性和可信度至关重要。 激励结构 使模型在大量任务的驱动下学会适应不同的问题情境，并在此过程中发展出更通用的能力。 6. 扩展定义的重新思考 Hyung Won Chung 对“扩展”（Scaling）的定义进行了重新审视。传统意义上的扩展指的是“用更多的机器做相同的事情”，但他认为，这种定义过于狭隘。 他提出了一种更有价值的扩展定义： 识别那些限制进一步扩展的假设或结构，并用更具扩展性的方法替代它们 。这种扩展不只是增加计算资源，还涉及对模型进行重新设计，使其更好地利用不断增加的计算能力和数据。 7. 持续的“去学习”与适应 随着更强大的模型（如GPT-4）的推出，AI领域的 基本假设 不断变化。Hyung Won Chung 指出，研究者需要具备一种 持续“去学习”的能力 ，以便适应新模型带来的新现实。 他解释说，语言模型的发展使得我们几乎每隔几年就必须抛弃旧的认知，适应新模型带来的新能力。这种 去学习 的过程对于保持在AI领域的领先地位至关重要，因为每次新模型的出现都会改变我们对AI的理解和使用方式。 8. 总结与展望 Hyung Won Chung 总结了几大关键点： 计算成本 在以指数级下降，AI研究者的任务是设计出能充分利用这种趋势的 可扩展算法 。 当前的 语言模型 依赖于下一个词预测任务，这是一种弱激励结构，但它有效地推动了通用技能的发展。 我们需要开始思考如何通过 激励结构 来进一步提升模型的能力，而不仅仅依赖于现有的任务设置。 涌现能力 是AI发展中的一个关键现象，它表明，随着模型规模的扩大，新的技能和能力自然会涌现出来。 最后，AI研究者必须不断适应技术发展的新阶段，尤其是在面对快速变化的计算能力和模型能力时，必须具备 持续去学习 的能力。 以下是该演讲的完整整理： 今天，我们非常幸运地邀请到来自 OpenAI 的 Hyung Won Chung，他是OpenAI的首席科学家。有趣的是，他实际上是在麻省理工学院（MIT）完成的博士学位，但他的研究领域并不是机器学习，而是可再生能源和能源系统。此后，他加入了 Google Brain，然后又转到了 OpenAI。他以大型语言模型的工作而闻名，他之前的一些研究包括扩展 FLAN、FLAN-T5、FLAN-PaLM，以及 T5X（训练框架，用于训练 PaLM 模型）。今天我们很高兴他回到 MIT，给我们带来关于大型语言模型（LLM）的一些进展。让我们以热烈的掌声欢迎他！ “谢谢大家，能回到这里感觉非常好。今天我的演讲题目是 《不要教授，而是激励》（Don’t Teach, Incentivize） 。我的研究方向是开发通用智能（General Intelligence），而不是专门化的智能。在这种研究中，我们不可能枚举出我们想教给模型的所有技能，因为有太多的技能是我们需要的，而且我们甚至不知道所有的技能是什么。 所以，我认为实现通用智能的唯一可行方式是弱激励（weakly incentivize），这样模型才能自行探索、学习。 在进入演讲细节之前，我想先分享一下今天演讲的目标，它与大多数技术演讲有所不同。今天我不会分享我最新的技术论文或实验结果，而是想分享我的思维方式，并以 AI 为例子进行探讨。你可能会问，为什么要这么做？在我看来，技术人员过于关注解决具体问题，而忽视了找到重要问题的重要性。我认为最好的研究人员并不一定是技术最强的那些人，他们真正的优势在于能够找到最有影响力的问题去解决。这种能力来自于他们的视角，而我认为拥有良好的视角这一点往往被低估了。通过这次演讲，我希望能引发大家的思考，促使我们作为一个社区更多地讨论这些问题，从而变得更擅长找到更好的问题。 演讲大纲 今天的演讲大纲大致如下：首先，我会分享我的视角，基本上是围绕‘扩展’（Scaling）这个主题。之后，我们会将这种视角应用到通用 AI 研究中，接着深入探讨语言模型（LLM）。这就是整个演讲的框架。 首先，我想展示我所知的关于 AI 领域最重要的数据点之一。这个图表来自 Rich Sutton 去年发表的主题演讲。在横轴上，我们看到的是时间，从 1900 年到 2020 年；纵轴是计算能力，即花费 1000 美元所能获得的计算力，这是一张对数坐标图。我们看到，计算能力在过去 100 年间呈现出指数级增长。换句话说，计算成本正在快速下降。我不知道有哪一个趋势像这样强大且持久。当我看到这种超出直觉的趋势时，我想到两件事：第一，我不应该与之竞争；第二，我应该尽可能在我职业生涯和生活中的各个方面利用它。 随着硬件能力的爆炸性增长，作为开发软件和算法的人，我们也需要赶上这一趋势，尤其是需要更多可扩展的方法来更好地利用日益增长的计算能力。更一般地说，AI 研究人员的工作是教机器如何思考，但一种非常普遍且不幸的做法是，我们教机器我们认为自己如何思考。但我们真的了解自己是如何思考的吗？在非常低的层面上，我们并不知道。所以，当我们用这种方法教机器时，实际上是在教我们自己都无法完全理解的东西，而且是用数学这门有限的语言来表达。这个过程通常会对问题施加结构，而这种结构在扩展时往往成为瓶颈。 Rich Sutton 的另一点教训很好地总结了这个现象。他说，过去 70 年的 AI 进展，归根结底是开发出越来越通用、结构越来越少的方法，并加上更多的数据和计算能力。换句话说，‘扩展’（Scaling）。这是一种非常强烈的表述，因为我们见过许多不同类型的进展，但他将所有的进展概括为这个简单而强烈的观点。我完全同意这一点。事实上，我认为这是 AI 领域中最重要的思想之一，我经常回顾这篇论文，所以我强烈推荐大家阅读它。 这是我对同一观点的图形化版本。横轴代表计算量，纵轴代表性能，你可以把它想象成某种智力指标（Intelligence Metric）。这里有两种方法：一种带有更多结构，另一种带有较少的结构。我们反复看到的是，带有更多结构的方法通常会快速取得初步成功，因为结构本身起到了捷径的作用。然而，这种结构在进一步扩展时往往成为瓶颈。相比之下，带有较少结构的方法通常一开始不起作用，因为我们给了模型太多自由，而它不知道如何利用这些自由。但一旦我们提供足够的数据和计算能力，再加上合适的算法，它就会表现得越来越好，我们称之为更具可扩展性的解决方案。 具体举个例子，经典的机器学习算法如支持向量机（SVM），可以与深度学习相比。SVM 可以被认为是具有更多结构的版本，特别是核方法等会规定我们应该如何表示数据的特征。而深度学习则允许模型自行学习如何表示数据的特征。虽然一开始深度学习并不奏效，但最终它凭借其可扩展性取得了胜利。在深度学习的内部，我们也看到类似的层级，某些深度学习方法比其他方法更具可扩展性。 扩展（Scaling）带来的深刻启示 聪明的人类研究人员所提出的结构，通常在扩展时会成为瓶颈。从长远来看，通常有效的方法，在短期内可能看起来并不起作用。计算能力的成本下降速度远远超过我们成为更好研究人员的速度，因此我们不应该与之竞争，而应该赋予机器更多自由，让它们选择如何学习。我们关心的是模型最终的智能水平和它所创造的价值，而不是它是否模仿人类的思维模式。 这或许听起来显而易见，但实际上并非如此。有很多原因导致这种思路未被广泛接受，其中一个原因是，研究人员往往希望加入自己的建模想法，因为这在学术上更有成就感。有些人认为‘扩展’只是一种工程问题，毫无科学性可言。我经常听到人们说：‘这只是无聊的工程而已’。我想问这些人：‘我们为什么要开发人工智能？为什么要开发任何技术？’我认为最终目标是创造有益于人类的价值，而这比任何科学家个人的学术成就要重要得多。 因此，我们应该专注于最大化人工智能所带来的价值，尽可能减少它的负面影响。无论是哪一个学科达到了这个目标，都应该被接受。如果我研究了十年的东西现在不再是最具可扩展性的方法，那么我就应该重新思考并学习新的东西。我采取的研究方法一直是围绕更好地利用计算资源的，这一点从未改变过。 大语言模型（LLM）的训练与发展 接下来我想详细介绍一下语言模型。我使用了‘大语言模型（LLM）’这个术语，但我认为这里的‘大型’和‘语言’这两个词其实没有太大意义。‘大型’是个相对的概念，今年的大型模型明年就可能变成小型模型。至于‘语言’，我稍后会解释为什么它不是一个准确的描述。 目前，所有的 LLM 都使用 Transformer 架构。我们可以从功能的角度来看待 Transformer，把它看作一个序列到序列的映射模型。输入是一个序列的向量，输出也是相同的格式，而这些向量之间的交互通过一系列矩阵乘法来完成。 这里简要介绍一下‘下一个词预测’（next token prediction）的过程。首先，我们有一个序列，比如一句话，它由多个词组成。为了让计算机理解，我们首先需要将这些词转换为数字，这个过程叫做‘词元化’（Tokenization）。每个词或词片段会被映射为一个整数，形成一个序列。然后，模型会通过嵌入（Embedding）将这些整数转换为向量。 接下来，模型会计算这些向量之间的点积。如果两个向量的点积较大，模型会认为它们在语义上有较强的关联，反之则关联较弱。通过一系列的点积计算，模型逐渐形成对整个序列的理解。最终，模型通过预测下一个词来完成任务。 在这个过程中，我们并没有直接教给模型语言的概念，比如动词或名词等。模型只是通过预测下一个词逐渐学会了语言。实际上，我认为教语言的最好方式是不教语言。通过‘下一个词预测’，语言知识自然而然地涌现出来。我甚至认为，LLM 不应该被称为语言模型，因为它不仅仅学习了语言，它学习了更广泛的知识。 有趣的是，模型不仅能学会语言，还能学会推理、数学、编程等复杂任务，即使我们从未直接教它们这些技能。许多研究人员提出了不同的假设来解释为什么这种方法如此有效，但目前还没有共识。我自己有一个假设，那就是大型语言模型实际上是一种隐式的多任务学习。虽然我们没有明确告诉模型要完成哪些任务，但通过多样化的语料库，模型自然而然地学会了执行多种任务。” 结论 “今天的演讲到这里就结束了。总结一下：我们讨论了计算能力的指数级增长，这促使 AI 研究人员设计出更具可扩展性的方法。当前的语言模型依赖于‘下一个词预测’，这实际上是一种弱激励机制，它促使模型学习通用技能，从而应对大量不同类型的任务。展望未来，我们需要设计新的激励结构，不仅限于预测下一个词，而是让模型能够从中发展出更广泛的能力。” 演讲视频： https://www.youtube.com/watch?v=kYWUEV_e2ss 演讲PPT： https://docs.google.com/presentation/d/1nnjXIuN2XDJENAOaKXI5srQscO3276svvP6JgivTv6w/edit?usp=sharing

Menu

分类目录

OpenAI 首席科学家MIT演讲：揭示 o1模型训练核心激励模型学习是培养 AGI 的最佳方式

Related Posts

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM) 让模型更像人类思考

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

Fireworks AI新功能能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

Anthropic 公布了一种全新的 AI 越狱技术可以轻松破解所有前沿模型

INFP：基于音频驱动的双人对话中的互动头像生成能自动区分谁在说话，谁在听

Recommendeds

Podcastfy：将任何网页、PDF和文本内容自动生成播客音频内容

Infini-attention：通过压缩记忆技术使模型能够处理无限长的输入

Anthropic 推出企业版Claude 500K上下文可以将 GitHub 仓库与 Claude 集成

Magic团队开发出一种超长上下文 AI 模型 LTM 可处理 1 亿个Token的上下文

AMT-APC：自动生成钢琴伴奏模型将任意音乐转换成与原曲匹配钢琴伴奏

ChatMusician: 基于LLaMA 2 能够理解和生成音乐的大语言模型

One-Click Creative Template：创意模型用一张卡通图片总结4张真实人物照片

StoryDiffusion：可以创造漫画故事实现连贯叙事的图像视频生成模型

Stability AI 推出Stable Fast 3D 可以在0.5秒内将一张图片变成一个完美的3D模型

Hotshot ACT-1：一个全新的文本转视频模型更贴近生活现实

Welcome Back!

Retrieve your password

Add New Playlist

Are you sure want to unlock this post?

Are you sure want to cancel subscription?

Menu

分类目录

OpenAI 首席科学家MIT演讲：揭示 o1模型训练核心 激励模型学习是培养 AGI 的最佳方式

Support authors and subscribe to content

加入会员

Related Posts

Recommendeds

Welcome Back!

Retrieve your password

Add New Playlist

Are you sure want to unlock this post?

Are you sure want to cancel subscription?

OpenAI 首席科学家MIT演讲：揭示 o1模型训练核心激励模型学习是培养 AGI 的最佳方式