Menu

  • Home
  • Trending
  • Recommended
  • Latest

分类目录

  • AI 工具
  • AI新势力
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
XiaoHu.AI学院
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
No Result
View All Result
  • Login
XiaoHu.AI学院
No Result
View All Result
Home XiaoHu.AI日报

OpenAI 发布 GPT-4o全能模型 实时语音和视觉能力 再次刷新业界

by 小互
2024年5月14日
in XiaoHu.AI日报
0 0
0
0
SHARES
2.7k
VIEWS
Share on FacebookShare on Twitter

OpenAI 刚刚发布了 GPT-4o,这是一种新的人工智能模式,集合了文本、图片、视频、语音的全能模型。 能实时响应用户的需求,并通过语音来实时回答你,你可以随时打断它。 还具有视觉能力,能识别物体并根据视觉做出快速的响应和回答,具有非常强的逻辑推理能力。 它的速度比 GPT4-turbo 快 2 倍,价格便宜 50%!

根据传统的基准测试,GPT-4o 在文本、推理和编码智能方面的性能达到了 GPT-4 Turbo 的水平,同时在多语言、音频和视觉功能方面也创下了新高。

  • GPT-4o 的新功能:

    • 体验 GPT-4 级别的智能
    • 从模型和网页获取响应
    • 分析数据并创建图表
    • 讨论拍摄的照片
    • 上传文件以获取摘要、写作或分析帮助
    • 发现并使用 GPT 和 GPT 商店
    • 通过“记忆”构建更有帮助的体验
X2Twitter.com_1790073236379807746(1280p)

主要特点与功能:

  • 模型优势:GPT-4o 是最新的旗舰模型,具有 GPT-4 级别的智能,但速度更快,且在文本、语音和视觉方面的能力得到了显著提升。
  • 图像理解与讨论:GPT-4o 在理解和讨论用户分享的图像方面表现优于任何现有模型。例如,用户可以拍摄不同语言的菜单,与 GPT-4o 对话以翻译、了解食物的历史和重要性,以及获取推荐。
  • 即将推出的语音模式:未来的改进将支持更自然的实时语音对话和通过实时视频与 ChatGPT 对话的能力。例如,用户可以在观看现场体育赛事时,请求 ChatGPT 解释规则。计划在未来几周内以 alpha 版本推出新的语音模式,并向 Plus 用户提供早期访问。
    .
    X2Twitter.com_1790075542995349504(1280p)

    数学能力展示

  • 可用性和用户访问:

    • 多语言支持:GPT-4o 的语言能力在质量和速度上均有改进,现在 ChatGPT 支持超过 50 种语言的注册、登录、用户设置等。
    • 用户层次:目前正向 ChatGPT Plus 和团队用户推出 GPT-4o,企业用户即将可用。同时也开始向 ChatGPT Free 用户推出,但有使用限制。Plus 用户的消息限制是 Free 用户的 5 倍,团队和企业用户则有更高的限制。

    增强智能与高级工具的普及:

    • 使命与目标:使先进的 AI 工具能够为尽可能多的人提供服务。每周有超过一亿人使用 ChatGPT。在未来几周,我们将开始向 ChatGPT Free 用户推出更多智能和高级工具。
      .
      X2Twitter.com_1790090156936171520(1920p)

      编码和数据分析能力

综合交互能力:

  • 多模态输入与输出:GPT-4o 是第一个将文本、音频和图像输入整合的模型,可以生成文本、音频和图像的任意组合输出。这种设计显著提高了与计算机的自然交互能力。

性能提升与成本效率:

  • 响应时间:GPT-4o 的音频输入响应时间极快,最低可达232毫秒,平均为320毫秒,与人类在对话中的响应时间相似。
  • 效率与成本:在API中,GPT-4o 的速度是 GPT-4 Turbo 的两倍,成本降低了50%,且处理速率限制提高了5倍。

语音模式的进步:

  • 从多模型到单一模型:与之前版本相比,GPT-4o 通过单一模型端到端训练,处理所有输入和输出。这避免了信息丢失,使模型能直接处理语调、多个说话者或背景噪音等,并能输出笑声、唱歌或表达情感。

测试与迭代:

  • 广泛的红队测试:与70多位外部专家合作进行红队测试,涵盖社会心理学、偏见与公正、误信息等领域,以识别新增模态带来的风险,并据此建立安全干预措施。
  • 持续风险缓解:继续发现并缓解新风险。

部署与可用性:

  • 逐步推出:GPT-4o 的文本和图像功能已开始在 ChatGPT 中推出。开发者现在也可以通过API访问作为文本和视觉模型的 GPT-4o。
  • 语音和视频功能:计划在未来几周内向一小部分受信任的合作伙伴推出新的音频和视频能力。

其他一些更新

OpenAI将为 macOS 推出新的 ChatGPT 桌面应用程序,该应用程序旨在无缝集成到您正在电脑上进行的任何操作中。只需一个简单的键盘快捷键(Option + Space),您就可以立即向 ChatGPT 提问。您还可以直接在应用程序中截图并进行讨论。还可以直接从电脑与 ChatGPT 进行语音和视频对话。

7_DesktopLauncher

同时ChatGPT 的用户界面进行了改版,使其更友好、更会话。您将看到全新的主屏幕、消息布局等。

Web_-_New_UI_Updates

另外GPT-4o 就是之前在在 LMSys 竞技场上测试了一个版本 即 im-also-a-good-gpt2-chatbot

下面是测试结果 牛P啊,遥遥领先…

Sam Altman对GPT-4o的评价

在Sam Altman的博客文章“GPT-4o”中,他强调了两个主要的更新和观点:

  1. 使强大的AI工具免费或低成本提供给用户:
    • OpenAI的使命之一是向用户提供强大而高效的AI工具,且基本免费,如ChatGPT,并且没有广告等干扰。
    • OpenAI最初的设想是创造AI,并利用它为世界带来种种益处。现在的情形更多的是,OpenAI创造AI后,其他人将使用这些AI创造出让所有人受益的惊人成果。
    • 尽管OpenAI是一家商业机构,会发现许多收费的产品和服务,但其目标是向全球数十亿用户提供免费的、卓越的AI服务。
  2. 新的语音(及视频)模式是前所未有的计算机界面体验:
    • 新的语音和视频模式被描述为最好的计算机界面,给人一种如同电影中AI的感觉,这种体验是真实而令人惊讶的。
    • 达到接近人类水平的响应速度和表达能力,带来了重大的改变。与计算机的交互从未感觉如此自然。
    • 新系统的快速、智能、有趣、自然和有用的特性,让与计算机的对话变得前所未有的自然。
    • 通过添加个性化选项、访问用户信息、代表用户采取行动等功能,Sam Altman展望了一个充满激动人心的未来,我们能够使用计算机做更多以前无法想象的事情。

最后,Sam Altman特别感谢团队为实现这些成就所投入的巨大努力。

更详细的功能介绍和展示:https://openai.com/index/hello-gpt-4o/

Related Posts

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM)  让模型更像人类思考
XiaoHu.AI日报

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM) 让模型更像人类思考

2024年12月25日
482
阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型
XiaoHu.AI日报

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

2024年12月25日
336
Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本
AI 工具

Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

2024年12月24日
448
Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音
XiaoHu.AI日报

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

2024年12月24日
278
Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型
AI 论文

Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型

2024年12月23日
614
INFP:基于音频驱动的双人对话中的互动头像生成  能自动区分谁在说话,谁在听
AI 项目

INFP:基于音频驱动的双人对话中的互动头像生成 能自动区分谁在说话,谁在听

2024年12月22日
428

Recommendeds

EchoMimic:通过音频和面部标志生成逼真的音画同步肖像视频

EchoMimic:通过音频和面部标志生成逼真的音画同步肖像视频

519 VIEWS
2024年7月11日
OpenAI 举行全体员工大会 推出了一个 AGI 等级体系 并展示了接近人类推理能力的模型

OpenAI 举行全体员工大会 推出了一个 AGI 等级体系 并展示了接近人类推理能力的模型

468 VIEWS
2024年7月12日
Nothing公司将ChatGPT引入其新款无线耳机中 可召唤ChatGPT

Nothing公司将ChatGPT引入其新款无线耳机中 可召唤ChatGPT

164 VIEWS
2024年4月20日
PhotoMaker:利用多个输入图片创建人物ID表示 来生成一致性人物图像

PhotoMaker:利用多个输入图片创建人物ID表示 来生成一致性人物图像

331 VIEWS
2024年7月23日
马里兰大学开发出一种”隐形斗篷” 可以让监控无法识别到你

马里兰大学开发出一种”隐形斗篷” 可以让监控无法识别到你

1.2k VIEWS
2024年4月13日
和 GPT 4o 匹敌 世界上最快的语音机器 实现500毫秒的语音到语音响应

和 GPT 4o 匹敌 世界上最快的语音机器 实现500毫秒的语音到语音响应

562 VIEWS
2024年6月28日
AI和脑机接口帮助失语症患者恢复双语交流

AI和脑机接口帮助失语症患者恢复双语交流

110 VIEWS
2024年6月1日
Perplexica:AI 驱动的问答搜索引擎 支持多种搜索模式 搜索更加精准

Perplexica:AI 驱动的问答搜索引擎 支持多种搜索模式 搜索更加精准

698 VIEWS
2024年4月28日
HeyGen 正在开放 API 你可以轻松创建数字人、进行视频翻译、部署交互式数字人

HeyGen 正在开放 API 你可以轻松创建数字人、进行视频翻译、部署交互式数字人

408 VIEWS
2024年11月13日
微软发布Phi-3.5-vision 轻量级、多模态的开源模型 端侧运行 可进行复杂视觉推理

微软发布Phi-3.5-vision 轻量级、多模态的开源模型 端侧运行 可进行复杂视觉推理

527 VIEWS
2024年8月21日

Copyright (c) 2024 by Xiaohu.AI.

  • About
  • Contact

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In

Add New Playlist

No Result
View All Result
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
  • Login

© 2024 Xiaohu.AI

Are you sure want to unlock this post?
Unlock left : 0
Are you sure want to cancel subscription?
转到手机版