Menu

  • Home
  • Trending
  • Recommended
  • Latest

分类目录

  • AI 工具
  • AI新势力
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
XiaoHu.AI学院
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
No Result
View All Result
  • Login
XiaoHu.AI学院
No Result
View All Result
Home XiaoHu.AI日报

Google DeepMind 公布其NotebookLM背后的创新音频生成技术 使 AI 能够生成更加自然的对话

by 小互
2024年10月30日
in XiaoHu.AI日报
1 0
0
Google DeepMind 公布其NotebookLM背后的创新音频生成技术 使 AI 能够生成更加自然的对话
0
SHARES
630
VIEWS
Share on FacebookShare on Twitter

DeepMind 公布其正在开发一套创新的音频生成技术细节,也就是NotebookLM背后使用的语音技术。使 AI 能够生成更加自然的对话和高质量的音频。这些技术不仅提升了语音助手的交互性,还帮助多种应用在语音合成和对话生成上取得更大进展。

1. 核心音频生成技术

  • SoundStream:
    • SoundStream 是一个神经音频编码器,它能够高效地将音频压缩成一组声学令牌(tokens),然后解码出接近原始音频的高保真声音。
    • 这是一种 AI 技术,它能够把一段音频压缩成一组小的“音符”(被称为声学令牌),然后再解压缩成高保真音频。这个过程类似于把一段语音“翻译”成数据,然后再“翻译”回来。
    • 声学令牌是音频的数字表示,它们携带语音的各种信息,如语调、节奏和声音细节。这些令牌类似于文本模型中的词汇,帮助 AI 生成自然语音。
  • AudioLM:
    • AudioLM 将音频生成视为一种语言建模任务,即将音频生成类比于文本生成。通过处理这些声学令牌,它不需要为不同类型的声音进行模型调整,可以灵活地生成多种类型的音频。
    • 可以将生成语音看作生成文字的类似过程。它像 GPT 这样的文本模型一样工作,但处理的不是单词,而是声音数据。
    • 这项技术能够生成多说话人对话,而无需为每个说话人调整模型。
  • SoundStorm:
    • SoundStorm 是 DeepMind 开发的一个多说话人对话生成模型,能够生成多达 30 秒的自然对话段落。
    • 它进一步发展了 AudioLM 和 SoundStream 的基础技术,能够根据不同说话人的标记生成更长、更自然的对话。
    • 可以生成多个人之间的对话,而不是一个人独白。例如,AI 可以模拟一场访谈,两个虚拟人物有问有答,看起来像是“现场”对话。

举例:

  • 你正在和语音助手(比如 Google Assistant)对话,问它:“明天天气怎么样?”以往的语音助手可能会直接回复一句“明天多云”。而用 DeepMind 的技术,语音助手可能会更自然地说:“明天可能会有些多云,记得带把伞哦。”

2. 最新的音频生成技术

  • DeepMind 的新一代音频生成模型能够生成长达 2 分钟的对话,并且保持高质量的音频输出。这项技术通过以下方式实现改进:
    • 更快的生成速度:该模型在 3 秒内即可生成 2 分钟的对话,速度比实时生成快 40 倍。
    • 自然的对话流:模型能够保持说话人之间的连贯切换,输出语音中还包括自然的停顿、口头语(如 “嗯”、“啊”)等细节,使得生成的对话更接近真实交流。
    • 高效的计算架构:利用新的 Transformer 架构,模型能够处理更长的音频序列,同时保持高效的推理过程。这些音频序列以自回归方式生成,意味着模型会逐步生成音频内容,确保准确性和一致性。
Speech_generation_6

动画展示了语音生成模型如何自回归生成音频标记流,并将其解码回由两个说话者对话组成的波形。

3. 多层次的音频压缩与处理

  • 新的语音编码技术可以把音频压缩到 600 bps(比特每秒),比以前的技术更高效,但仍能保持清晰的音质。
  • 生成的“音符”分为多层次,每一层代表不同的语音信息:
    • 第一层:包含基本的语音信息,比如语调和节奏。
    • 后续层次:包含更细致的声音细节,比如声音的音色和细腻的发音。

举例:

  • 在一个教育应用中,AI 正在解释二次方程的解法。以前的 AI 可能会平铺直叙地说:“二次方程的解法是…” 但有了新的技术,AI 可能会用更自然的语气说:“我们现在来看看二次方程的解法吧!首先呢,我们需要…”,不仅保持清晰,还显得更有人情味。

4. 训练方法和数据集

  • 大规模预训练:模型通过数十万小时的语音数据进行预训练,学习如何生成基础的语音结构。
  • 高质量对话微调:为了让模型生成更自然的对话,DeepMind 还使用了小规模的高质量对话数据集进行微调。这个数据集包含真实对话中的细微特征,如非剧本对话、自然停顿和真实的语音变化。

5. 模型的潜在应用

  • DeepMind 的音频生成技术正在应用于多种 Google 产品和实验项目,如:
    • YouTube 自动配音:用 AI 自动为视频生成多语言的配音。以前的配音可能很平淡,但新的技术能让 AI 配音听起来更真实。
    • NotebookLM 音频概述:这是一种新功能,能把文档内容转成两个 AI 角色的对话形式,像是在听一场讨论会。
    • 教育和普及内容:通过将复杂的研究论文或文章转化为自然的对话形式,让人们更轻松地理解。
  • 举例:如果你上传了一篇关于气候变化的文章,AI 会自动生成一个对话版本。例如:
    • AI 1:“气候变化是一个全球性问题。”
    • AI 2:“是的,尤其是温室气体排放带来的影响。”
      这就像是两个专家在讨论,而不是单调的文章朗读。
  • 这项技术的主要应用场景包括:
    • 语音助手:生成更自然、对话性强的语音响应。
    • 教育和普及内容:例如,将研究论文转化为对话形式,帮助用户更轻松地理解复杂的内容。
    • 多模态交互:计划将语音生成技术与视频等其他模式结合,以提升学习体验和信息传达效果。
1030Area

原文:https://deepmind.google/discover/blog/pushing-the-frontiers-of-audio-generation

Related Posts

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM)  让模型更像人类思考
XiaoHu.AI日报

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM) 让模型更像人类思考

2024年12月25日
482
阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型
XiaoHu.AI日报

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

2024年12月25日
336
Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本
AI 工具

Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

2024年12月24日
448
Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音
XiaoHu.AI日报

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

2024年12月24日
278
Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型
AI 论文

Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型

2024年12月23日
614
INFP:基于音频驱动的双人对话中的互动头像生成  能自动区分谁在说话,谁在听
AI 项目

INFP:基于音频驱动的双人对话中的互动头像生成 能自动区分谁在说话,谁在听

2024年12月22日
428

Recommendeds

Infinity AI:只需要输入剧本内容,即可一键生成电影

Infinity AI:只需要输入剧本内容,即可一键生成电影

836 VIEWS
2024年4月4日
Concept Sliders:通过拖到滑块来精确控制特定图像特征 如年龄、性别、眼睛大小等

Concept Sliders:通过拖到滑块来精确控制特定图像特征 如年龄、性别、眼睛大小等

158 VIEWS
2024年9月10日
Google发布Gemini 1.5 Pro 技术报告:为多模态混合专家模型

Google发布Gemini 1.5 Pro 技术报告:为多模态混合专家模型

54 VIEWS
2024年3月11日
ReadKidz:利用AI一键生成儿童绘本故事书和多媒体故事 可随心定制设定

ReadKidz:利用AI一键生成儿童绘本故事书和多媒体故事 可随心定制设定

1.5k VIEWS
2024年11月6日
OpenAI 首席科学家MIT演讲:揭示 o1模型训练核心 激励模型学习是培养 AGI 的最佳方式

OpenAI 首席科学家MIT演讲:揭示 o1模型训练核心 激励模型学习是培养 AGI 的最佳方式

446 VIEWS
2024年9月22日
Supertone Shift:实时语音变换器 将你的声音变成各种角色和性别的声音

Supertone Shift:实时语音变换器 将你的声音变成各种角色和性别的声音

1.2k VIEWS
2024年5月6日
Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

278 VIEWS
2024年12月24日
EvTexture:一种提升视频分辨率的新方法 解决了视频细节模糊和抖动问题

EvTexture:一种提升视频分辨率的新方法 解决了视频细节模糊和抖动问题

301 VIEWS
2024年6月24日
麻省理工学院推出数据库生成式AI 只需按几下键就能对表格数据进行复杂的统计分析

麻省理工学院推出数据库生成式AI 只需按几下键就能对表格数据进行复杂的统计分析

143 VIEWS
2024年7月10日

苹果收购法国初创公司Datakalab 专注于AI和计算机视觉技术

42 VIEWS
2024年4月23日

Copyright (c) 2024 by Xiaohu.AI.

  • About
  • Contact

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In

Add New Playlist

No Result
View All Result
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
  • Login

© 2024 Xiaohu.AI

Are you sure want to unlock this post?
Unlock left : 0
Are you sure want to cancel subscription?
转到手机版