Menu

  • Home
  • Trending
  • Recommended
  • Latest

分类目录

  • AI 工具
  • AI新势力
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
XiaoHu.AI学院
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
No Result
View All Result
  • Login
XiaoHu.AI学院
No Result
View All Result
Home XiaoHu.AI日报

Google DeepMind 公布其NotebookLM背后的创新音频生成技术 使 AI 能够生成更加自然的对话

by 小互
2024年10月30日
in XiaoHu.AI日报
1 0
0
Google DeepMind 公布其NotebookLM背后的创新音频生成技术 使 AI 能够生成更加自然的对话
0
SHARES
630
VIEWS
Share on FacebookShare on Twitter

DeepMind 公布其正在开发一套创新的音频生成技术细节,也就是NotebookLM背后使用的语音技术。使 AI 能够生成更加自然的对话和高质量的音频。这些技术不仅提升了语音助手的交互性,还帮助多种应用在语音合成和对话生成上取得更大进展。

1. 核心音频生成技术

  • SoundStream:
    • SoundStream 是一个神经音频编码器,它能够高效地将音频压缩成一组声学令牌(tokens),然后解码出接近原始音频的高保真声音。
    • 这是一种 AI 技术,它能够把一段音频压缩成一组小的“音符”(被称为声学令牌),然后再解压缩成高保真音频。这个过程类似于把一段语音“翻译”成数据,然后再“翻译”回来。
    • 声学令牌是音频的数字表示,它们携带语音的各种信息,如语调、节奏和声音细节。这些令牌类似于文本模型中的词汇,帮助 AI 生成自然语音。
  • AudioLM:
    • AudioLM 将音频生成视为一种语言建模任务,即将音频生成类比于文本生成。通过处理这些声学令牌,它不需要为不同类型的声音进行模型调整,可以灵活地生成多种类型的音频。
    • 可以将生成语音看作生成文字的类似过程。它像 GPT 这样的文本模型一样工作,但处理的不是单词,而是声音数据。
    • 这项技术能够生成多说话人对话,而无需为每个说话人调整模型。
  • SoundStorm:
    • SoundStorm 是 DeepMind 开发的一个多说话人对话生成模型,能够生成多达 30 秒的自然对话段落。
    • 它进一步发展了 AudioLM 和 SoundStream 的基础技术,能够根据不同说话人的标记生成更长、更自然的对话。
    • 可以生成多个人之间的对话,而不是一个人独白。例如,AI 可以模拟一场访谈,两个虚拟人物有问有答,看起来像是“现场”对话。

举例:

  • 你正在和语音助手(比如 Google Assistant)对话,问它:“明天天气怎么样?”以往的语音助手可能会直接回复一句“明天多云”。而用 DeepMind 的技术,语音助手可能会更自然地说:“明天可能会有些多云,记得带把伞哦。”

2. 最新的音频生成技术

  • DeepMind 的新一代音频生成模型能够生成长达 2 分钟的对话,并且保持高质量的音频输出。这项技术通过以下方式实现改进:
    • 更快的生成速度:该模型在 3 秒内即可生成 2 分钟的对话,速度比实时生成快 40 倍。
    • 自然的对话流:模型能够保持说话人之间的连贯切换,输出语音中还包括自然的停顿、口头语(如 “嗯”、“啊”)等细节,使得生成的对话更接近真实交流。
    • 高效的计算架构:利用新的 Transformer 架构,模型能够处理更长的音频序列,同时保持高效的推理过程。这些音频序列以自回归方式生成,意味着模型会逐步生成音频内容,确保准确性和一致性。
Speech_generation_6

动画展示了语音生成模型如何自回归生成音频标记流,并将其解码回由两个说话者对话组成的波形。

3. 多层次的音频压缩与处理

  • 新的语音编码技术可以把音频压缩到 600 bps(比特每秒),比以前的技术更高效,但仍能保持清晰的音质。
  • 生成的“音符”分为多层次,每一层代表不同的语音信息:
    • 第一层:包含基本的语音信息,比如语调和节奏。
    • 后续层次:包含更细致的声音细节,比如声音的音色和细腻的发音。

举例:

  • 在一个教育应用中,AI 正在解释二次方程的解法。以前的 AI 可能会平铺直叙地说:“二次方程的解法是…” 但有了新的技术,AI 可能会用更自然的语气说:“我们现在来看看二次方程的解法吧!首先呢,我们需要…”,不仅保持清晰,还显得更有人情味。

4. 训练方法和数据集

  • 大规模预训练:模型通过数十万小时的语音数据进行预训练,学习如何生成基础的语音结构。
  • 高质量对话微调:为了让模型生成更自然的对话,DeepMind 还使用了小规模的高质量对话数据集进行微调。这个数据集包含真实对话中的细微特征,如非剧本对话、自然停顿和真实的语音变化。

5. 模型的潜在应用

  • DeepMind 的音频生成技术正在应用于多种 Google 产品和实验项目,如:
    • YouTube 自动配音:用 AI 自动为视频生成多语言的配音。以前的配音可能很平淡,但新的技术能让 AI 配音听起来更真实。
    • NotebookLM 音频概述:这是一种新功能,能把文档内容转成两个 AI 角色的对话形式,像是在听一场讨论会。
    • 教育和普及内容:通过将复杂的研究论文或文章转化为自然的对话形式,让人们更轻松地理解。
  • 举例:如果你上传了一篇关于气候变化的文章,AI 会自动生成一个对话版本。例如:
    • AI 1:“气候变化是一个全球性问题。”
    • AI 2:“是的,尤其是温室气体排放带来的影响。”
      这就像是两个专家在讨论,而不是单调的文章朗读。
  • 这项技术的主要应用场景包括:
    • 语音助手:生成更自然、对话性强的语音响应。
    • 教育和普及内容:例如,将研究论文转化为对话形式,帮助用户更轻松地理解复杂的内容。
    • 多模态交互:计划将语音生成技术与视频等其他模式结合,以提升学习体验和信息传达效果。
1030Area

原文:https://deepmind.google/discover/blog/pushing-the-frontiers-of-audio-generation

Related Posts

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM)  让模型更像人类思考
XiaoHu.AI日报

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM) 让模型更像人类思考

2024年12月25日
483
阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型
XiaoHu.AI日报

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

2024年12月25日
338
Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本
AI 工具

Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

2024年12月24日
450
Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音
XiaoHu.AI日报

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

2024年12月24日
279
Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型
AI 论文

Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型

2024年12月23日
617
INFP:基于音频驱动的双人对话中的互动头像生成  能自动区分谁在说话,谁在听
AI 项目

INFP:基于音频驱动的双人对话中的互动头像生成 能自动区分谁在说话,谁在听

2024年12月22日
429

Recommendeds

Prompt 学习地图 18 | 复杂任务 – 综合分析多个答案

Prompt 学习地图 18 | 复杂任务 – 综合分析多个答案

93 VIEWS
2024年4月18日
Adobe的Firefly服务为开发者提供超过20种新的生成和创意API

Adobe的Firefly服务为开发者提供超过20种新的生成和创意API

134 VIEWS
2024年4月1日
Omni-Zero-Couples :无需图像训练自动生成风格化情侣肖像的扩散模型

Omni-Zero-Couples :无需图像训练自动生成风格化情侣肖像的扩散模型

191 VIEWS
2024年9月28日
腾讯混元DiT模型 支持中英双语生成高分辨率、高质量的图像

腾讯混元DiT模型 支持中英双语生成高分辨率、高质量的图像

265 VIEWS
2024年5月15日
微软发布Phi-3.5-vision 轻量级、多模态的开源模型 端侧运行 可进行复杂视觉推理

微软发布Phi-3.5-vision 轻量级、多模态的开源模型 端侧运行 可进行复杂视觉推理

527 VIEWS
2024年8月21日
GitHub 发布 Copilot Workspace 可通过自然语言编程并测试和运行代码

GitHub 发布 Copilot Workspace 可通过自然语言编程并测试和运行代码

569 VIEWS
2024年4月30日
AutoBNN:利用组合贝叶斯神经网络进行时间序列概率预测

AutoBNN:利用组合贝叶斯神经网络进行时间序列概率预测

111 VIEWS
2024年4月3日
NVIDIA 发布全套数字人服务 可根据音频自动生成数字人的身体、面部和姿势

NVIDIA 发布全套数字人服务 可根据音频自动生成数字人的身体、面部和姿势

506 VIEWS
2024年6月3日
TurboEdit:基于文本提示实现亚秒级实时图像编辑  相比传统方法实现了 6到630倍的速度提升

TurboEdit:基于文本提示实现亚秒级实时图像编辑 相比传统方法实现了 6到630倍的速度提升

113 VIEWS
2024年9月22日
DETECT-2B :音频深度伪造检测工具 可以在只200毫秒内检测30多种语言的音频

DETECT-2B :音频深度伪造检测工具 可以在只200毫秒内检测30多种语言的音频

177 VIEWS
2024年7月18日

Copyright (c) 2024 by Xiaohu.AI.

  • About
  • Contact

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In

Add New Playlist

No Result
View All Result
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
  • Login

© 2024 Xiaohu.AI

Are you sure want to unlock this post?
Unlock left : 0
Are you sure want to cancel subscription?
转到手机版