Menu

  • Home
  • Trending
  • Recommended
  • Latest

分类目录

  • AI 工具
  • AI新势力
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
XiaoHu.AI学院
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
No Result
View All Result
  • Login
XiaoHu.AI学院
No Result
View All Result
Home XiaoHu.AI日报

谷歌发布 Gemini Live AI 语音助手 对标GPT 4o 可模拟真人连续对话

by 小互
2024年8月14日
in XiaoHu.AI日报
0 0
0
谷歌发布 Gemini Live  AI 语音助手 对标GPT 4o 可模拟真人连续对话
0
SHARES
374
VIEWS
Share on FacebookShare on Twitter

谷歌在今天召开的 Pixel 9 系列手机发布会上,发布了其AI语音助手 Gemini Live 。Gemini Live 对标的是 OpenAI ChatGPT 最新上线的 Advanced Voice 模式,可以展开更连贯、更有情感表达力、更逼真的多轮对话。

Gemini Live 支持免提操作,允许一直在后台保持运行,Gemini Live 允许用户与 Gemini 进行类似于与真人的自由流动的对话。用户可以随时在对话中打断 Gemini 的回应,深入探讨特定话题,或是在不丢失上下文的情况下暂停对话,稍后再继续。这种体验使得与 AI 的互动更加直观和灵活,类似于与一位实时助手进行交流。

谷歌演示 Gemini Live 的一个场景,模拟用户和招聘经理(或人工智能,视情况而定)交谈,为用户提供演讲技巧推荐、提供优化建议。

谷歌发言人表示:

Gemini Live 使用的是我们的 Gemini Advanced 模型,我们对其进行了调整,使其更具对话性。当用户与 Live 进行长时间对话时,就会使用该模型的长上下文窗口。

your-personal-ai-assistant-gemini-1080-ytshorts.savetube.me

Gemini Live将于今天开始率先面向使用英语的 Gemini Advanced 订阅用户开放。

  • 自由流动的对话:用户可以与 Gemini 进行自然、连续的对话,类似于与真人交流。可以在对话中随时打断、深入某个话题或暂停对话,稍后再继续。
  • 免提操作:Gemini Live 支持免提使用,用户可以在手机锁屏或应用后台运行时继续与 Gemini 交流,类似于电话通话。
  • 多种语音选择:为使对话更加自然,Gemini Live 提供了 10 种新的语音选项,用户可以选择最适合自己的语音风格和语调。
  • 跨平台支持:Gemini Live 首先面向 Android 用户推出,未来几周将扩展到 iOS 平台和更多语言。
go-live-with-gemini-1080-ytshorts.savetube.me

Gemini Live 的详细介绍:

1. 自由流动的对话体验

Gemini Live 允许用户与 Gemini 进行类似于与真人的自由流动的对话。用户可以随时在对话中打断 Gemini 的回应,深入探讨特定话题,或是在不丢失上下文的情况下暂停对话,稍后再继续。这种体验使得与 AI 的互动更加直观和灵活,类似于与一位实时助手进行交流。

2. 免提操作

Gemini Live 支持免提操作,这意味着用户可以在手机锁屏或应用后台运行时继续与 Gemini 进行对话。用户可以像在电话中一样,与 Gemini 继续交流,即使在做其他事情时也不会中断。这为在移动场景下使用 Gemini 提供了更大的便利性。

3. 多种语音选择

为了使与 Gemini 的交流更加个性化,Gemini Live 引入了 10 种新的语音选项,用户可以根据自己的喜好选择最适合的语音风格和语调。这不仅提升了使用体验,还让每位用户都能定制自己的 Gemini 助手。

4. 跨平台支持

Gemini Live 首先面向 Android 平台的 Gemini 高级订阅用户推出,未来几周将逐步扩展到 iOS 平台,并支持更多语言。这意味着更广泛的用户群体将能够体验到这一创新功能。

5. 深度集成和扩展

除了核心对话功能外,Gemini Live 还将与多种 Google 应用(如 Keep、Tasks、Utilities 和 YouTube Music)深度集成。这使得 Gemini 可以帮助用户更好地完成日常任务,比如从邮件中提取信息并添加到购物清单,或者创建特定主题的播放列表等。

假设你正在举办一个晚宴:让 Gemini 找出 Jenny 在你的 Gmail 中发给你的千层面食谱,并要求它将配料添加到 Keep 的购物清单中。由于你的客人是大学朋友,问 Gemini “制作一份让我想起 90 年代末的歌曲播放列表。” 不需要太多细节,Gemini 就能理解你的需求并提供帮助。

Calendar_Tasks_Keep_extensions_Sabrina_Carpenter

 

例如随着日历扩展的即将推出,你将能够拍摄音乐会海报并询问 Gemini 那天你是否有空——甚至可以设置提醒购买票。

此外,随着与 Android 的深度集成,它不仅可以读取屏幕,还可以与您已经使用的许多应用程序互动。

Gemini_overlay

例如,您可以将 Gemini 生成的图像直接拖放到 Gmail 和 Google Messages 等应用中。

Gemini 已经完全集成到 Android 用户体验中,提供了许多仅在 Android 平台上才能实现的上下文感知功能。无论用户在 Android 手机上做什么,Gemini 都能够在需要时提供帮助。用户只需长按电源按钮或说“Hey Google”,Gemini 就会出现,随时准备提供帮助。

例如,当用户使用手机时,可以点击“询问此屏幕”选项,Gemini 将根据屏幕上的内容提供帮助。如果用户在使用 YouTube 时,可以向 Gemini 提出有关正在观看内容的问题。举个例子,假设用户正在计划一次出国旅行,并刚刚观看了一段旅游视频,可以点击“询问此视频”选项,要求 Gemini 列出视频中提到的所有餐厅,并将它们添加到 Google 地图中。这种深度集成让 Gemini 能够在用户的日常使用场景中提供更加智能和贴心的帮助。

Gemini Live 还不具备谷歌在 I / O 大会上展示的功能之一:多模态输入。

谷歌今年 5 月发布了一段预先录制的视频,展示了 Gemini Live 通过手机摄像头捕捉的照片和录像看到用户周围的环境并做出反应,例如说出一辆坏掉的自行车上的零件名称,或者解释电脑屏幕上的部分代码是做什么用的。

谷歌表示,多模态输入将在“今年晚些时候”推出,但拒绝透露具体细节。

官方介绍:https://blog.google/products/gemini/made-by-google-gemini-ai-updates/

Related Posts

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM)  让模型更像人类思考
XiaoHu.AI日报

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM) 让模型更像人类思考

2024年12月25日
478
阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型
XiaoHu.AI日报

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

2024年12月25日
332
Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本
AI 工具

Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

2024年12月24日
444
Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音
XiaoHu.AI日报

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

2024年12月24日
277
Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型
AI 论文

Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型

2024年12月23日
608
INFP:基于音频驱动的双人对话中的互动头像生成  能自动区分谁在说话,谁在听
AI 项目

INFP:基于音频驱动的双人对话中的互动头像生成 能自动区分谁在说话,谁在听

2024年12月22日
423

Recommendeds

Reor:一个基于AI的开源桌面笔记应用 构建你的“第二大脑”。

Reor:一个基于AI的开源桌面笔记应用 构建你的“第二大脑”。

129 VIEWS
2024年3月14日
EMO:一张照片+音频即可生成会说话唱歌的视频

EMO:一张照片+音频即可生成会说话唱歌的视频

838 VIEWS
2024年4月25日
换脸应用 FaceFusion 升级为 “面部操控平台” 支持面部表情恢复迁移编辑

换脸应用 FaceFusion 升级为 “面部操控平台” 支持面部表情恢复迁移编辑

480 VIEWS
2024年11月7日
教程:如何把自己变成吉卜力电影角色 替换动画片中人物角色

教程:如何把自己变成吉卜力电影角色 替换动画片中人物角色

228 VIEWS
2024年6月3日
Stylar:最可控的人工智能图像和设计工具 附操作教程

Stylar:最可控的人工智能图像和设计工具 附操作教程

866 VIEWS
2024年5月10日
PicCopilot:产品摄影师的时代结束了 免费创建专业的产品图片

PicCopilot:产品摄影师的时代结束了 免费创建专业的产品图片

323 VIEWS
2024年7月30日
Hume AI发布情感感知对话AI:EVI 能理解用户的情感状态和意图

Hume AI发布情感感知对话AI:EVI 能理解用户的情感状态和意图

95 VIEWS
2024年3月28日
Reimagine AI:实时滚动生成无限个结果的图像生成工具

Reimagine AI:实时滚动生成无限个结果的图像生成工具

78 VIEWS
2024年3月22日
Anthropic 推出 企业版Claude   500K上下文 可以将 GitHub 仓库与 Claude 集成

Anthropic 推出 企业版Claude 500K上下文 可以将 GitHub 仓库与 Claude 集成

204 VIEWS
2024年9月5日
Google:为特定领域专门化大语言模型的三步设计模式

Google:为特定领域专门化大语言模型的三步设计模式

307 VIEWS
2024年4月1日

Copyright (c) 2024 by Xiaohu.AI.

  • About
  • Contact

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In

Add New Playlist

No Result
View All Result
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
  • Login

© 2024 Xiaohu.AI

Are you sure want to unlock this post?
Unlock left : 0
Are you sure want to cancel subscription?
转到手机版