Menu

  • Home
  • Trending
  • Recommended
  • Latest

分类目录

  • AI 工具
  • AI新势力
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
XiaoHu.AI学院
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
No Result
View All Result
  • Login
XiaoHu.AI学院
No Result
View All Result
Home XiaoHu.AI日报

OpenAI 发布 GPT-4o全能模型 实时语音和视觉能力 再次刷新业界

by 小互
2024年5月14日
in XiaoHu.AI日报
0 0
0
0
SHARES
2.7k
VIEWS
Share on FacebookShare on Twitter

OpenAI 刚刚发布了 GPT-4o,这是一种新的人工智能模式,集合了文本、图片、视频、语音的全能模型。 能实时响应用户的需求,并通过语音来实时回答你,你可以随时打断它。 还具有视觉能力,能识别物体并根据视觉做出快速的响应和回答,具有非常强的逻辑推理能力。 它的速度比 GPT4-turbo 快 2 倍,价格便宜 50%!

根据传统的基准测试,GPT-4o 在文本、推理和编码智能方面的性能达到了 GPT-4 Turbo 的水平,同时在多语言、音频和视觉功能方面也创下了新高。

  • GPT-4o 的新功能:

    • 体验 GPT-4 级别的智能
    • 从模型和网页获取响应
    • 分析数据并创建图表
    • 讨论拍摄的照片
    • 上传文件以获取摘要、写作或分析帮助
    • 发现并使用 GPT 和 GPT 商店
    • 通过“记忆”构建更有帮助的体验
X2Twitter.com_1790073236379807746(1280p)

主要特点与功能:

  • 模型优势:GPT-4o 是最新的旗舰模型,具有 GPT-4 级别的智能,但速度更快,且在文本、语音和视觉方面的能力得到了显著提升。
  • 图像理解与讨论:GPT-4o 在理解和讨论用户分享的图像方面表现优于任何现有模型。例如,用户可以拍摄不同语言的菜单,与 GPT-4o 对话以翻译、了解食物的历史和重要性,以及获取推荐。
  • 即将推出的语音模式:未来的改进将支持更自然的实时语音对话和通过实时视频与 ChatGPT 对话的能力。例如,用户可以在观看现场体育赛事时,请求 ChatGPT 解释规则。计划在未来几周内以 alpha 版本推出新的语音模式,并向 Plus 用户提供早期访问。
    .
    X2Twitter.com_1790075542995349504(1280p)

    数学能力展示

  • 可用性和用户访问:

    • 多语言支持:GPT-4o 的语言能力在质量和速度上均有改进,现在 ChatGPT 支持超过 50 种语言的注册、登录、用户设置等。
    • 用户层次:目前正向 ChatGPT Plus 和团队用户推出 GPT-4o,企业用户即将可用。同时也开始向 ChatGPT Free 用户推出,但有使用限制。Plus 用户的消息限制是 Free 用户的 5 倍,团队和企业用户则有更高的限制。

    增强智能与高级工具的普及:

    • 使命与目标:使先进的 AI 工具能够为尽可能多的人提供服务。每周有超过一亿人使用 ChatGPT。在未来几周,我们将开始向 ChatGPT Free 用户推出更多智能和高级工具。
      .
      X2Twitter.com_1790090156936171520(1920p)

      编码和数据分析能力

综合交互能力:

  • 多模态输入与输出:GPT-4o 是第一个将文本、音频和图像输入整合的模型,可以生成文本、音频和图像的任意组合输出。这种设计显著提高了与计算机的自然交互能力。

性能提升与成本效率:

  • 响应时间:GPT-4o 的音频输入响应时间极快,最低可达232毫秒,平均为320毫秒,与人类在对话中的响应时间相似。
  • 效率与成本:在API中,GPT-4o 的速度是 GPT-4 Turbo 的两倍,成本降低了50%,且处理速率限制提高了5倍。

语音模式的进步:

  • 从多模型到单一模型:与之前版本相比,GPT-4o 通过单一模型端到端训练,处理所有输入和输出。这避免了信息丢失,使模型能直接处理语调、多个说话者或背景噪音等,并能输出笑声、唱歌或表达情感。

测试与迭代:

  • 广泛的红队测试:与70多位外部专家合作进行红队测试,涵盖社会心理学、偏见与公正、误信息等领域,以识别新增模态带来的风险,并据此建立安全干预措施。
  • 持续风险缓解:继续发现并缓解新风险。

部署与可用性:

  • 逐步推出:GPT-4o 的文本和图像功能已开始在 ChatGPT 中推出。开发者现在也可以通过API访问作为文本和视觉模型的 GPT-4o。
  • 语音和视频功能:计划在未来几周内向一小部分受信任的合作伙伴推出新的音频和视频能力。

其他一些更新

OpenAI将为 macOS 推出新的 ChatGPT 桌面应用程序,该应用程序旨在无缝集成到您正在电脑上进行的任何操作中。只需一个简单的键盘快捷键(Option + Space),您就可以立即向 ChatGPT 提问。您还可以直接在应用程序中截图并进行讨论。还可以直接从电脑与 ChatGPT 进行语音和视频对话。

7_DesktopLauncher

同时ChatGPT 的用户界面进行了改版,使其更友好、更会话。您将看到全新的主屏幕、消息布局等。

Web_-_New_UI_Updates

另外GPT-4o 就是之前在在 LMSys 竞技场上测试了一个版本 即 im-also-a-good-gpt2-chatbot

下面是测试结果 牛P啊,遥遥领先…

Sam Altman对GPT-4o的评价

在Sam Altman的博客文章“GPT-4o”中,他强调了两个主要的更新和观点:

  1. 使强大的AI工具免费或低成本提供给用户:
    • OpenAI的使命之一是向用户提供强大而高效的AI工具,且基本免费,如ChatGPT,并且没有广告等干扰。
    • OpenAI最初的设想是创造AI,并利用它为世界带来种种益处。现在的情形更多的是,OpenAI创造AI后,其他人将使用这些AI创造出让所有人受益的惊人成果。
    • 尽管OpenAI是一家商业机构,会发现许多收费的产品和服务,但其目标是向全球数十亿用户提供免费的、卓越的AI服务。
  2. 新的语音(及视频)模式是前所未有的计算机界面体验:
    • 新的语音和视频模式被描述为最好的计算机界面,给人一种如同电影中AI的感觉,这种体验是真实而令人惊讶的。
    • 达到接近人类水平的响应速度和表达能力,带来了重大的改变。与计算机的交互从未感觉如此自然。
    • 新系统的快速、智能、有趣、自然和有用的特性,让与计算机的对话变得前所未有的自然。
    • 通过添加个性化选项、访问用户信息、代表用户采取行动等功能,Sam Altman展望了一个充满激动人心的未来,我们能够使用计算机做更多以前无法想象的事情。

最后,Sam Altman特别感谢团队为实现这些成就所投入的巨大努力。

更详细的功能介绍和展示:https://openai.com/index/hello-gpt-4o/

Related Posts

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM)  让模型更像人类思考
XiaoHu.AI日报

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM) 让模型更像人类思考

2024年12月25日
483
阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型
XiaoHu.AI日报

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

2024年12月25日
337
Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本
AI 工具

Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

2024年12月24日
449
Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音
XiaoHu.AI日报

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

2024年12月24日
278
Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型
AI 论文

Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型

2024年12月23日
616
INFP:基于音频驱动的双人对话中的互动头像生成  能自动区分谁在说话,谁在听
AI 项目

INFP:基于音频驱动的双人对话中的互动头像生成 能自动区分谁在说话,谁在听

2024年12月22日
428

Recommendeds

基于 SAM-2 自动识别和分割外科手术视频中的手术工具

基于 SAM-2 自动识别和分割外科手术视频中的手术工具

369 VIEWS
2024年8月20日
Google在其搜索中集成先进的 Gemini 模型 更新一些列功能

Google在其搜索中集成先进的 Gemini 模型 更新一些列功能

150 VIEWS
2024年5月16日
Prompt 学习地图 18 | 复杂任务 – 综合分析多个答案

Prompt 学习地图 18 | 复杂任务 – 综合分析多个答案

93 VIEWS
2024年4月18日
Cohere 推出 Rerank 3 可与任何数据库或搜索索引兼容

Cohere 推出 Rerank 3 可与任何数据库或搜索索引兼容

206 VIEWS
2024年4月13日
Reka Core:和GPT 4性能不相上下的多模态语言模型

Reka Core:和GPT 4性能不相上下的多模态语言模型

366 VIEWS
2024年4月17日
NVIDIA 发布全套数字人服务 可根据音频自动生成数字人的身体、面部和姿势

NVIDIA 发布全套数字人服务 可根据音频自动生成数字人的身体、面部和姿势

506 VIEWS
2024年6月3日
Mistral 发布了2个7B小模型: Codestral Mamba 7B 和 Mathstral 7B 

Mistral 发布了2个7B小模型: Codestral Mamba 7B 和 Mathstral 7B 

343 VIEWS
2024年7月17日
Figma 推出新的演示文稿制作工具 Figma Slides

Figma 推出新的演示文稿制作工具 Figma Slides

209 VIEWS
2024年6月28日
Uizard 发布 Autodesigner 2.0 AI设计引擎 只需文字或截图几秒钟内完成网站设计

Uizard 发布 Autodesigner 2.0 AI设计引擎 只需文字或截图几秒钟内完成网站设计

380 VIEWS
2024年6月13日
T-Rex2:在无需训练的情况下精准识别视频中的目标对象

T-Rex2:在无需训练的情况下精准识别视频中的目标对象

73 VIEWS
2024年3月26日

Copyright (c) 2024 by Xiaohu.AI.

  • About
  • Contact

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In

Add New Playlist

No Result
View All Result
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
  • Login

© 2024 Xiaohu.AI

Are you sure want to unlock this post?
Unlock left : 0
Are you sure want to cancel subscription?
转到手机版