Menu

  • Home
  • Trending
  • Recommended
  • Latest

分类目录

  • AI 工具
  • AI新势力
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
XiaoHu.AI学院
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
No Result
View All Result
  • Login
XiaoHu.AI学院
No Result
View All Result
Home XiaoHu.AI日报

谷歌发布 Gemini Live AI 语音助手 对标GPT 4o 可模拟真人连续对话

by 小互
2024年8月14日
in XiaoHu.AI日报
0 0
0
谷歌发布 Gemini Live  AI 语音助手 对标GPT 4o 可模拟真人连续对话
0
SHARES
374
VIEWS
Share on FacebookShare on Twitter

谷歌在今天召开的 Pixel 9 系列手机发布会上,发布了其AI语音助手 Gemini Live 。Gemini Live 对标的是 OpenAI ChatGPT 最新上线的 Advanced Voice 模式,可以展开更连贯、更有情感表达力、更逼真的多轮对话。

Gemini Live 支持免提操作,允许一直在后台保持运行,Gemini Live 允许用户与 Gemini 进行类似于与真人的自由流动的对话。用户可以随时在对话中打断 Gemini 的回应,深入探讨特定话题,或是在不丢失上下文的情况下暂停对话,稍后再继续。这种体验使得与 AI 的互动更加直观和灵活,类似于与一位实时助手进行交流。

谷歌演示 Gemini Live 的一个场景,模拟用户和招聘经理(或人工智能,视情况而定)交谈,为用户提供演讲技巧推荐、提供优化建议。

谷歌发言人表示:

Gemini Live 使用的是我们的 Gemini Advanced 模型,我们对其进行了调整,使其更具对话性。当用户与 Live 进行长时间对话时,就会使用该模型的长上下文窗口。

your-personal-ai-assistant-gemini-1080-ytshorts.savetube.me

Gemini Live将于今天开始率先面向使用英语的 Gemini Advanced 订阅用户开放。

  • 自由流动的对话:用户可以与 Gemini 进行自然、连续的对话,类似于与真人交流。可以在对话中随时打断、深入某个话题或暂停对话,稍后再继续。
  • 免提操作:Gemini Live 支持免提使用,用户可以在手机锁屏或应用后台运行时继续与 Gemini 交流,类似于电话通话。
  • 多种语音选择:为使对话更加自然,Gemini Live 提供了 10 种新的语音选项,用户可以选择最适合自己的语音风格和语调。
  • 跨平台支持:Gemini Live 首先面向 Android 用户推出,未来几周将扩展到 iOS 平台和更多语言。
go-live-with-gemini-1080-ytshorts.savetube.me

Gemini Live 的详细介绍:

1. 自由流动的对话体验

Gemini Live 允许用户与 Gemini 进行类似于与真人的自由流动的对话。用户可以随时在对话中打断 Gemini 的回应,深入探讨特定话题,或是在不丢失上下文的情况下暂停对话,稍后再继续。这种体验使得与 AI 的互动更加直观和灵活,类似于与一位实时助手进行交流。

2. 免提操作

Gemini Live 支持免提操作,这意味着用户可以在手机锁屏或应用后台运行时继续与 Gemini 进行对话。用户可以像在电话中一样,与 Gemini 继续交流,即使在做其他事情时也不会中断。这为在移动场景下使用 Gemini 提供了更大的便利性。

3. 多种语音选择

为了使与 Gemini 的交流更加个性化,Gemini Live 引入了 10 种新的语音选项,用户可以根据自己的喜好选择最适合的语音风格和语调。这不仅提升了使用体验,还让每位用户都能定制自己的 Gemini 助手。

4. 跨平台支持

Gemini Live 首先面向 Android 平台的 Gemini 高级订阅用户推出,未来几周将逐步扩展到 iOS 平台,并支持更多语言。这意味着更广泛的用户群体将能够体验到这一创新功能。

5. 深度集成和扩展

除了核心对话功能外,Gemini Live 还将与多种 Google 应用(如 Keep、Tasks、Utilities 和 YouTube Music)深度集成。这使得 Gemini 可以帮助用户更好地完成日常任务,比如从邮件中提取信息并添加到购物清单,或者创建特定主题的播放列表等。

假设你正在举办一个晚宴:让 Gemini 找出 Jenny 在你的 Gmail 中发给你的千层面食谱,并要求它将配料添加到 Keep 的购物清单中。由于你的客人是大学朋友,问 Gemini “制作一份让我想起 90 年代末的歌曲播放列表。” 不需要太多细节,Gemini 就能理解你的需求并提供帮助。

Calendar_Tasks_Keep_extensions_Sabrina_Carpenter

 

例如随着日历扩展的即将推出,你将能够拍摄音乐会海报并询问 Gemini 那天你是否有空——甚至可以设置提醒购买票。

此外,随着与 Android 的深度集成,它不仅可以读取屏幕,还可以与您已经使用的许多应用程序互动。

Gemini_overlay

例如,您可以将 Gemini 生成的图像直接拖放到 Gmail 和 Google Messages 等应用中。

Gemini 已经完全集成到 Android 用户体验中,提供了许多仅在 Android 平台上才能实现的上下文感知功能。无论用户在 Android 手机上做什么,Gemini 都能够在需要时提供帮助。用户只需长按电源按钮或说“Hey Google”,Gemini 就会出现,随时准备提供帮助。

例如,当用户使用手机时,可以点击“询问此屏幕”选项,Gemini 将根据屏幕上的内容提供帮助。如果用户在使用 YouTube 时,可以向 Gemini 提出有关正在观看内容的问题。举个例子,假设用户正在计划一次出国旅行,并刚刚观看了一段旅游视频,可以点击“询问此视频”选项,要求 Gemini 列出视频中提到的所有餐厅,并将它们添加到 Google 地图中。这种深度集成让 Gemini 能够在用户的日常使用场景中提供更加智能和贴心的帮助。

Gemini Live 还不具备谷歌在 I / O 大会上展示的功能之一:多模态输入。

谷歌今年 5 月发布了一段预先录制的视频,展示了 Gemini Live 通过手机摄像头捕捉的照片和录像看到用户周围的环境并做出反应,例如说出一辆坏掉的自行车上的零件名称,或者解释电脑屏幕上的部分代码是做什么用的。

谷歌表示,多模态输入将在“今年晚些时候”推出,但拒绝透露具体细节。

官方介绍:https://blog.google/products/gemini/made-by-google-gemini-ai-updates/

Related Posts

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM)  让模型更像人类思考
XiaoHu.AI日报

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM) 让模型更像人类思考

2024年12月25日
483
阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型
XiaoHu.AI日报

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

2024年12月25日
337
Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本
AI 工具

Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

2024年12月24日
449
Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音
XiaoHu.AI日报

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

2024年12月24日
278
Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型
AI 论文

Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型

2024年12月23日
616
INFP:基于音频驱动的双人对话中的互动头像生成  能自动区分谁在说话,谁在听
AI 项目

INFP:基于音频驱动的双人对话中的互动头像生成 能自动区分谁在说话,谁在听

2024年12月22日
428

Recommendeds

Live_Portrait_Monitor :利用摄像头驱动静态图像转换为实时动态视频

Live_Portrait_Monitor :利用摄像头驱动静态图像转换为实时动态视频

303 VIEWS
2024年7月22日
Prompt 学习地图 09 |概念科普,什么是“温度值“?

Prompt 学习地图 09 |概念科普,什么是“温度值“?

146 VIEWS
2024年4月18日
GPT-4 通过图灵测试?研究人员称人们在图灵测试中无法区分 GPT-4 和人类

GPT-4 通过图灵测试?研究人员称人们在图灵测试中无法区分 GPT-4 和人类

483 VIEWS
2024年6月20日
Meta AI 研究员:网络上的文本基本都是“狗屎” Llama 3 没有使用任何人类书写的答案 全是合成数据

Meta AI 研究员:网络上的文本基本都是“狗屎” Llama 3 没有使用任何人类书写的答案 全是合成数据

256 VIEWS
2024年7月24日
AMT-APC:自动生成钢琴伴奏模型 将任意音乐转换成与原曲匹配钢琴伴奏

AMT-APC:自动生成钢琴伴奏模型 将任意音乐转换成与原曲匹配钢琴伴奏

360 VIEWS
2024年10月18日
Mobile-Agent-v2:让AI可以像真人一样来操控你的手机执行各种任务

Mobile-Agent-v2:让AI可以像真人一样来操控你的手机执行各种任务

244 VIEWS
2024年6月5日
让 AI 像人类一样通过试错法学习决策和推理 提高其逻辑推理和数学能力

让 AI 像人类一样通过试错法学习决策和推理 提高其逻辑推理和数学能力

92 VIEWS
2024年6月16日
NotebookLlama:Meta 发布了一个通过Llama从 PDF 文件生成播客的引导式教程

NotebookLlama:Meta 发布了一个通过Llama从 PDF 文件生成播客的引导式教程

266 VIEWS
2024年10月28日
Design2Code:利用大语言模型将视觉设计自动转换为前端代码

Design2Code:利用大语言模型将视觉设计自动转换为前端代码

62 VIEWS
2024年3月7日
Vchitect 2.0:上海人工智能实验室开发的视频生成模型 可生成5 到 20 秒的高清短视频

Vchitect 2.0:上海人工智能实验室开发的视频生成模型 可生成5 到 20 秒的高清短视频

306 VIEWS
2024年9月13日

Copyright (c) 2024 by Xiaohu.AI.

  • About
  • Contact

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In

Add New Playlist

No Result
View All Result
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
  • Login

© 2024 Xiaohu.AI

Are you sure want to unlock this post?
Unlock left : 0
Are you sure want to cancel subscription?
转到手机版