OpenAI 发布 GPT-4o全能模型实时语音和视觉能力再次刷新业界

OpenAI 刚刚发布了 GPT-4o，这是一种新的人工智能模式，集合了文本、图片、视频、语音的全能模型。能实时响应用户的需求，并通过语音来实时回答你，你可以随时打断它。还具有视觉能力，能识别物体并根据视觉做出快速的响应和回答，具有非常强的逻辑推理能力。它的速度比 GPT4-turbo 快 2 倍，价格便宜 50%！

根据传统的基准测试，GPT-4o 在文本、推理和编码智能方面的性能达到了 GPT-4 Turbo 的水平，同时在多语言、音频和视觉功能方面也创下了新高。

GPT-4o 的新功能：
- 体验 GPT-4 级别的智能
- 从模型和网页获取响应
- 分析数据并创建图表
- 讨论拍摄的照片
- 上传文件以获取摘要、写作或分析帮助
- 发现并使用 GPT 和 GPT 商店
- 通过“记忆”构建更有帮助的体验

主要特点与功能：

模型优势：GPT-4o 是最新的旗舰模型，具有 GPT-4 级别的智能，但速度更快，且在文本、语音和视觉方面的能力得到了显著提升。
图像理解与讨论：GPT-4o 在理解和讨论用户分享的图像方面表现优于任何现有模型。例如，用户可以拍摄不同语言的菜单，与 GPT-4o 对话以翻译、了解食物的历史和重要性，以及获取推荐。
即将推出的语音模式：未来的改进将支持更自然的实时语音对话和通过实时视频与 ChatGPT 对话的能力。例如，用户可以在观看现场体育赛事时，请求 ChatGPT 解释规则。计划在未来几周内以 alpha 版本推出新的语音模式，并向 Plus 用户提供早期访问。
.

数学能力展示
可用性和用户访问：
- 多语言支持：GPT-4o 的语言能力在质量和速度上均有改进，现在 ChatGPT 支持超过 50 种语言的注册、登录、用户设置等。
- 用户层次：目前正向 ChatGPT Plus 和团队用户推出 GPT-4o，企业用户即将可用。同时也开始向 ChatGPT Free 用户推出，但有使用限制。Plus 用户的消息限制是 Free 用户的 5 倍，团队和企业用户则有更高的限制。
增强智能与高级工具的普及：
- 使命与目标：使先进的 AI 工具能够为尽可能多的人提供服务。每周有超过一亿人使用 ChatGPT。在未来几周，我们将开始向 ChatGPT Free 用户推出更多智能和高级工具。
  .
  
  编码和数据分析能力

综合交互能力：

多模态输入与输出：GPT-4o 是第一个将文本、音频和图像输入整合的模型，可以生成文本、音频和图像的任意组合输出。这种设计显著提高了与计算机的自然交互能力。

性能提升与成本效率：

响应时间：GPT-4o 的音频输入响应时间极快，最低可达232毫秒，平均为320毫秒，与人类在对话中的响应时间相似。
效率与成本：在API中，GPT-4o 的速度是 GPT-4 Turbo 的两倍，成本降低了50%，且处理速率限制提高了5倍。

语音模式的进步：

从多模型到单一模型：与之前版本相比，GPT-4o 通过单一模型端到端训练，处理所有输入和输出。这避免了信息丢失，使模型能直接处理语调、多个说话者或背景噪音等，并能输出笑声、唱歌或表达情感。

测试与迭代：

广泛的红队测试：与70多位外部专家合作进行红队测试，涵盖社会心理学、偏见与公正、误信息等领域，以识别新增模态带来的风险，并据此建立安全干预措施。
持续风险缓解：继续发现并缓解新风险。

部署与可用性：

逐步推出：GPT-4o 的文本和图像功能已开始在 ChatGPT 中推出。开发者现在也可以通过API访问作为文本和视觉模型的 GPT-4o。
语音和视频功能：计划在未来几周内向一小部分受信任的合作伙伴推出新的音频和视频能力。

其他一些更新

OpenAI将为 macOS 推出新的 ChatGPT 桌面应用程序，该应用程序旨在无缝集成到您正在电脑上进行的任何操作中。只需一个简单的键盘快捷键（Option + Space），您就可以立即向 ChatGPT 提问。您还可以直接在应用程序中截图并进行讨论。还可以直接从电脑与 ChatGPT 进行语音和视频对话。

同时ChatGPT 的用户界面进行了改版，使其更友好、更会话。您将看到全新的主屏幕、消息布局等。

另外GPT-4o 就是之前在在 LMSys 竞技场上测试了一个版本即 im-also-a-good-gpt2-chatbot

下面是测试结果牛P啊，遥遥领先…

Sam Altman对GPT-4o的评价

在Sam Altman的博客文章“GPT-4o”中，他强调了两个主要的更新和观点：

使强大的AI工具免费或低成本提供给用户：
- OpenAI的使命之一是向用户提供强大而高效的AI工具，且基本免费，如ChatGPT，并且没有广告等干扰。
- OpenAI最初的设想是创造AI，并利用它为世界带来种种益处。现在的情形更多的是，OpenAI创造AI后，其他人将使用这些AI创造出让所有人受益的惊人成果。
- 尽管OpenAI是一家商业机构，会发现许多收费的产品和服务，但其目标是向全球数十亿用户提供免费的、卓越的AI服务。
新的语音（及视频）模式是前所未有的计算机界面体验：
- 新的语音和视频模式被描述为最好的计算机界面，给人一种如同电影中AI的感觉，这种体验是真实而令人惊讶的。
- 达到接近人类水平的响应速度和表达能力，带来了重大的改变。与计算机的交互从未感觉如此自然。
- 新系统的快速、智能、有趣、自然和有用的特性，让与计算机的对话变得前所未有的自然。
- 通过添加个性化选项、访问用户信息、代表用户采取行动等功能，Sam Altman展望了一个充满激动人心的未来，我们能够使用计算机做更多以前无法想象的事情。