Menu

  • Home
  • Trending
  • Recommended
  • Latest

分类目录

  • AI 工具
  • AI新势力
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
XiaoHu.AI学院
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
No Result
View All Result
  • Login
XiaoHu.AI学院
No Result
View All Result
Home XiaoHu.AI日报

OpenAI发布了全新的 o1 推理模型 工作原理及技术报告详解

by 小互
2024年9月13日
in XiaoHu.AI日报
0 0
0
0
SHARES
2.3k
VIEWS
Share on FacebookShare on Twitter

OpenAI发布了全新的o1-preview” 推理模型系列,这是一个设计用于解决复杂问题的 AI 系列,能够进行复杂推理。

相比之前的模型,这些新模型在回应之前会花费更多时间思考,尤其在科学、编码和数学等领域具有卓越的表现,根据官方的报告它的推理性能远超GPT-4o,能够在许多基准测试中超过人类专家水平。

新的推理模型学会像人类一样花更多时间推理问题,尝试不同策略,并修正错误。它们通过训练学会了更有效地分析问题,尝试多种策略,并能够识别并纠正错误。通过这种方式,模型能够在更复杂的任务中表现出色。

技术原理:

大规模强化学习算法

OpenAI 使用了一种大规模的强化学习算法,来训练 o1-preview 模型。该算法通过高效的数据训练,让模型学会如何利用“思维链”(Chain of Thought)来生产性地思考问题。模型在训练过程中会通过强化学习不断优化其思维链,最终提升解决问题的能力。

OpenAI 发现,o1 模型的性能会随着强化学习时间(训练时计算量)和推理时间(测试时计算量)的增加而显著提高。这种基于推理的训练方式与传统的大规模语言模型(LLM)预训练方式不同,具有独特的扩展性优势。

o1 性能在训练时间和测试时间的计算中都平稳提升

思维链(Chain of Thought)

o1-preview 模型通过 思维链推理 显著增强了其在复杂推理任务中的能力。思维链的基本理念类似于人类思考困难问题的过程:逐步分解问题、尝试不同策略并纠正错误。通过强化学习训练,o1-preview 能够在回答问题前进行深入思考,逐步细化步骤。

这种推理方式大幅提升了 o1-preview 在复杂任务中的表现。例如,o1-preview 能够通过思维链识别问题中的关键步骤并逐步解决。这种推理模式特别适用于需要多步骤推理的任务,如复杂的数学问题或高难度编程任务。

举例说明:

  • 在某些复杂问题上,o1-preview 能够逐步打破问题的难点,最终找到正确解答。这与人类面对挑战性问题时逐步分析的思维方式非常相似。

评估与基准测试

在 OpenAI 的内部测试中,下一代模型在解决复杂问题方面表现接近博士生水平,尤其是在物理、化学和生物学等学科的任务中表现优异。

  1. AIME(美国数学邀请赛):

    在国际数学奥林匹克(IMO)的资格考试中,GPT-4o 模型仅正确解决了 13% 的问题,而新推理模型则正确解决了 83% 的问题。

    • GPT-4o 仅解决了 12% 的问题(平均每 15 题解答 1.8 题)。
    • o1-preview 平均解决了 74% 的问题(11.1/15),远远超越了 GPT-4o。
    • 使用共识评估方法时(64 次样本共识),o1-preview 的解答率提高至 83%。
    • 在重新评分 1000 个样本后,模型的最终得分达到 93%(13.9/15),这一成绩足以使其跻身全美前 500 名高中生之列,并超越了参加美国数学奥林匹克竞赛的入围分数。
  2. GPQA(物理、化学和生物学的专家级测试):在 GPQA-diamond 基准测试中,o1-preview 超过了博士级专家的表现,成为第一个在该基准上优于人类博士的 AI 模型。这并不意味着 o1 比博士在所有任务中更强,而是它在某些问题上展示了超越博士解决能力的水平。

    • 为了进行公平的对比,OpenAI 招募了具有博士学位的专家来回答 GPQA-diamond 基准测试中的问题。o1-preview 成功超越了这些人类专家,成为第一个在这一基准测试上超越博士级水平的 AI 模型。
    • 需要注意的是,这并不意味着 o1-preview 模型在所有任务上都比博士专家更强,而是表明它在某些特定的问题上具备了超越专家的能力。
  3. MMLU(多任务语言理解):o1-preview 在 57 个子类别中的 54 个类别中超过了 GPT-4o。特别是在视觉感知启用的情况下,o1 模型在 MMLU 基准测试中的表现达到了 78.2%,首次与人类专家竞争。

    • GPT-4o 在 57 个子类别中仅在 3 个类别中超过了 o1-preview。
    • o1-preview 在 54 个子类别中的表现优于 GPT-4o,展示了其更为广泛的推理能力。
    • 尤其是在启用视觉感知功能时,o1-preview 在 MMLU 中得分达到了 78.2%,这是首个能与人类专家竞争的 AI 模型表现。
  4. 编码能力:新模型在编码能力上的表现也非常优越。在Codeforces编程竞赛中,o1模型也表现优异,超过了93%的竞争对手。特别是其编程能力,通过强化学习后的o1能够高效解决复杂的算法问题。
    • 在 2024 年国际信息学奥林匹克竞赛(IOI) 中,OpenAI 训练了一个基于 o1-preview 的模型参加比赛,并在相同的条件下与人类选手竞争。

      • 该模型在比赛中得到了 213 分,排名在第 49 百分位,表现优于大部分参赛者。
      • 模型在 10 小时内解决了 6 个复杂的算法问题,并且每个问题允许提交 50 次结果。通过多次样本提交,该模型的成绩得到了显著提升。
    • 在 Codeforces 编程竞赛中,o1-preview 模型达到了 1807 Elo 分数,这使得它超过了 93% 的人类竞争者。

      • 对比之下,GPT-4o 的 Elo 分数仅为 808,位于人类参赛者的 11 百分位。

    通过这些评估,o1-preview 展示了其在编程任务中的显著优势,特别是在解决复杂算法和逻辑问题时表现卓越。

  5. 人类偏好评估

    除了学术基准测试,OpenAI 还进行了 人类偏好评估。评估方法是通过向人类评审者展示 o1-preview 和 GPT-4o 在相同问题上的匿名回答,评审者根据回答的质量选择他们更偏好的答案。

    结果显示:

    • 在涉及推理任务(如数据分析、编码、数学等)的领域,人类评审者明显偏好 o1-preview 模型的回答。
    • 然而,在一些自然语言处理任务中,GPT-4o 的表现优于 o1-preview,这表明 o1-preview 并不适合所有的应用场景,尤其是在语言生成和自然语言理解方面。

你可以在 OpenAI 的技术研究帖子中阅读更多详细数据。

适用用户

新的推理模型将特别适合处理科学、编程、数学等领域中的复杂问题。以下是一些可能的应用场景:

  • 医疗领域:研究人员可以使用 o1-preview 模型注释复杂的细胞测序数据。
  • 物理学:物理学家可以利用该模型生成复杂的数学公式,特别是量子光学领域中的计算。
  • 开发者:在开发领域,o1-preview 可以帮助开发者构建和执行多步骤工作流,简化复杂任务的处理流程。

OpenAI o1-mini

为了满足开发者的需求,OpenAI 还发布了 OpenAI o1-mini,这是一个更小、更快速的推理模型,专注于代码生成和调试。o1-mini 模型相较于 o1-preview 更加便宜,成本降低了 80%,适合那些需要推理能力但不需要广泛世界知识的应用场景。

o1-mini 的优势:

  • 该模型特别适合编码任务,能够准确生成和调试复杂代码。
  • o1-mini 的计算资源更少,因此在需要高效、快速和成本控制的应用中表现优异。
  • o1-mini 是一款较小但高效的推理模型,与 OpenAI 的 o1-preview 和 o1 相比,成本减少了 80%,但在 STEM 领域中的推理能力几乎与 o1 持平。
  • 今天,o1-mini 正式面向 API 第 5 级用户发布,价格比 o1-preview 更具竞争力。
  • ChatGPT Plus、团队、企业和教育用户也可以使用 o1-mini 作为 o1-preview 的替代选择,享受更高的速率限制和更低的延迟。
STEM 推理的优化

相比大型语言模型(如 o1),o1-mini 专为 STEM 推理任务进行了优化。虽然大型模型如 o1 具有广泛的世界知识,但它们在实际应用中可能较为昂贵且运行速度较慢。与之相比,o1-mini 经过优化,专注于推理任务,在诸如数学和编码等领域表现出色。

o1-mini 在预训练阶段采用了与 o1 相同的高计算力强化学习(RL)管道,因此在许多推理任务中表现类似,但成本却大大降低。尽管 o1-mini 在需要非 STEM 知识的任务中表现较差,但在 STEM 推理领域,它的性能非常接近 o1-preview 和 o1。

数学表现 vs 推理成本

o1-mini 在多项 STEM 基准测试中表现出色,尤其在数学和编程任务上,显示出强大的推理能力。

  1. 数学表现:

    • 在 AIME(美国数学邀请赛)的高中数学竞赛中,o1-mini 得分为 70.0%,接近 o1 的 74.4%,并显著超过 o1-preview 的 44.6%。o1-mini 的成绩(约解决了 11/15 的问题)使其位列美国前 500 名高中生。
  2. 编程表现:

    • 在 Codeforces 编程比赛网站上,o1-mini 达到了 1650 Elo,与 o1 的 1673 Elo 接近,并高于 o1-preview 的 1258 Elo。这一 Elo 分数使得 o1-mini 位于 Codeforces 平台上 86% 的程序员之列。
    • o1-mini 在 HumanEval 编程基准测试和高中级别的网络安全夺旗挑战赛(CTF)中表现优异。
  3. 学术推理:

    • 在某些学术推理基准测试上,如 GPQA(科学)和 MATH-500,o1-mini 的表现优于 GPT-4o,但由于缺乏广泛的世界知识,o1-mini 在 MMLU(多任务语言理解)等任务上的表现不如 GPT-4o,也落后于 o1-preview。
  4. 人类偏好评估:在人类评审员各种领域中比较 o1-mini 和 GPT-4o测试中,使用与o1-preview 与 GPT-4o 比较相同的方法。在重推理的领域中,o1-mini 比 GPT-4o 更受欢迎,但在语言集中领域中,o1-mini 不如 GPT-4o 受欢迎。
性能对比
  • AIME 数学竞赛:o1-mini 得分 70.0%,接近 o1 的 74.4%,显著超过 o1-preview 的 44.6%。
  • Codeforces 编程:o1-mini 的 Elo 分数为 1650,与 o1 的 1673 接近,优于 o1-preview 的 1258。
  • HumanEval 编程基准测试:o1-mini 的准确率为 92.4%,与 o1-preview 持平,高于 GPT-4o 的 90.2%。
  • 网络安全 CTF:o1-mini 的表现为 43.0%,高于 o1-preview 的 28.7% 和 GPT-4o 的 20.0%。
模型速度

作为一个具体的例子,比较了 GPT-4o、o1-mini 和 o1-preview 在一个词语推理问题上的回答。虽然 GPT-4o 没有正确回答,但 o1-mini 和 o1-preview 都回答正确,并且 o1-mini 的回答速度大约快了 3-5 倍。

局限性

  • 限制:o1-preview 30 条/周,o1-mini 50 条/周,T5 级别的开发者可以访问其 API,每分钟最多20并发
  • 不支持网页浏览、文件和图片上传、画图等功能;
  • 在 API 里不支持 system、tool 等字段和 json mode、结构化输出等方法。
  • 模型说是有 32k/64k 的最大输出,但真实输出远没有这么多。
  • 从实际测试的角度,发现 o1 与其说是一个模型,不如说是基于 GPT-4o 的 agent。

价格与限制

目前 o1 系列模型可通过 ChatGPT 网页版,或者是 API 进行访问:

  • o1-preview
    • 128k 上下文
    • 32k 最大输出
    • 旨在解决各个领域复杂问题的推理模型
    • 训练数据截止于 23 年 10 月
  • o1-mini:
    • 128k 上下文
    • 64k 最大输出
    • 一种更快速、更经济的推理模型,特别擅长编程、数学和科学
    • 训练数据截止于 23 年 10 月

  • 对于 ChatGPT 网页版,目前仅 Plus 和 Team 用户目前已经可以访问了。对于 Enterprise 以及 Edu 的用户,还需要再等一周:
    • o1-preview:30 条/周
    • o1-mini:50 条/周

  • 对于 API 用户,如果你的等级在 Tire5 (支付金额>1000 美金),目前已经可以通过接口进行调用:
    • o1-preview:20 RPM,30,000,000 TPM
    • o1-mini:20 RPM,150,000,000 TPM

一些案例展示

OpenAI o1 和 Cognition

OpenAI o1 开发贪吃蛇

OpenAI o1 翻译不完整的韩文

解决数学问题

编写谜题

使用 OpenAI 计数

代码编写

推理能力

逻辑谜题

凯瑟琳·布朗斯坦:使用OpenAI o1 解决遗传学问题

马里奥·克伦: OpenAI o1 和量子物理

原文:https://openai.com/index/introducing-openai-o1-preview/

技术报告:https://openai.com/index/learning-to-reason-with-llms/

Related Posts

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM)  让模型更像人类思考
XiaoHu.AI日报

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM) 让模型更像人类思考

2024年12月25日
482
阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型
XiaoHu.AI日报

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

2024年12月25日
336
Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本
AI 工具

Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

2024年12月24日
448
Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音
XiaoHu.AI日报

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

2024年12月24日
278
Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型
AI 论文

Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型

2024年12月23日
614
INFP:基于音频驱动的双人对话中的互动头像生成  能自动区分谁在说话,谁在听
AI 项目

INFP:基于音频驱动的双人对话中的互动头像生成 能自动区分谁在说话,谁在听

2024年12月22日
428

Recommendeds

Mini-Omni 支持“边思考边说话” 具备端到端的实时语音输入和输出能力模型

Mini-Omni 支持“边思考边说话” 具备端到端的实时语音输入和输出能力模型

350 VIEWS
2024年9月8日
Deepgram Aura:低于250毫秒的 实时文本转语音API 可以实时互动

Deepgram Aura:低于250毫秒的 实时文本转语音API 可以实时互动

59 VIEWS
2024年3月13日
Claude发布函数调用工具:Tool use 允许模型与外部系统进行交互

Claude发布函数调用工具:Tool use 允许模型与外部系统进行交互

366 VIEWS
2024年4月6日
TRANSAGENTS: 一个专门用于进行文学翻译的多智能体虚拟翻译出版公司

TRANSAGENTS: 一个专门用于进行文学翻译的多智能体虚拟翻译出版公司

818 VIEWS
2024年5月23日
STRUCT CHEM:提高大语言模型解决复杂化学问题的能力

STRUCT CHEM:提高大语言模型解决复杂化学问题的能力

132 VIEWS
2024年3月6日
Gemini 推出了专门提升学生的学习体验新功能 5 种帮助学生更聪明地学习的方法

Gemini 推出了专门提升学生的学习体验新功能 5 种帮助学生更聪明地学习的方法

233 VIEWS
2024年8月30日
基于大语言模型的知识库问答系统 支持自动爬取在线文档 兼容多个大模型

基于大语言模型的知识库问答系统 支持自动爬取在线文档 兼容多个大模型

537 VIEWS
2024年6月15日
Ebook2Audiobook:将电子书自动转换为有声书 支持语音克隆、多种语言

Ebook2Audiobook:将电子书自动转换为有声书 支持语音克隆、多种语言

402 VIEWS
2024年10月7日
微软发布 Azure AI 高清语音模型 能理解文本背后的情感 并实时调整语音语调和情感表达

微软发布 Azure AI 高清语音模型 能理解文本背后的情感 并实时调整语音语调和情感表达

655 VIEWS
2024年10月1日
IMAGDressing-v1 :自定义虚拟试衣系统 可灵活控制模特面孔、姿势和场景

IMAGDressing-v1 :自定义虚拟试衣系统 可灵活控制模特面孔、姿势和场景

350 VIEWS
2024年7月20日

Copyright (c) 2024 by Xiaohu.AI.

  • About
  • Contact

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In

Add New Playlist

No Result
View All Result
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
  • Login

© 2024 Xiaohu.AI

Are you sure want to unlock this post?
Unlock left : 0
Are you sure want to cancel subscription?
转到手机版