Menu

  • Home
  • Trending
  • Recommended
  • Latest

分类目录

  • AI 工具
  • AI新势力
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
XiaoHu.AI学院
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
No Result
View All Result
  • Login
XiaoHu.AI学院
No Result
View All Result
Home XiaoHu.AI日报

Google DeepMind 公布其NotebookLM背后的创新音频生成技术 使 AI 能够生成更加自然的对话

by 小互
2024年10月30日
in XiaoHu.AI日报
1 0
0
Google DeepMind 公布其NotebookLM背后的创新音频生成技术 使 AI 能够生成更加自然的对话
0
SHARES
630
VIEWS
Share on FacebookShare on Twitter

DeepMind 公布其正在开发一套创新的音频生成技术细节,也就是NotebookLM背后使用的语音技术。使 AI 能够生成更加自然的对话和高质量的音频。这些技术不仅提升了语音助手的交互性,还帮助多种应用在语音合成和对话生成上取得更大进展。

1. 核心音频生成技术

  • SoundStream:
    • SoundStream 是一个神经音频编码器,它能够高效地将音频压缩成一组声学令牌(tokens),然后解码出接近原始音频的高保真声音。
    • 这是一种 AI 技术,它能够把一段音频压缩成一组小的“音符”(被称为声学令牌),然后再解压缩成高保真音频。这个过程类似于把一段语音“翻译”成数据,然后再“翻译”回来。
    • 声学令牌是音频的数字表示,它们携带语音的各种信息,如语调、节奏和声音细节。这些令牌类似于文本模型中的词汇,帮助 AI 生成自然语音。
  • AudioLM:
    • AudioLM 将音频生成视为一种语言建模任务,即将音频生成类比于文本生成。通过处理这些声学令牌,它不需要为不同类型的声音进行模型调整,可以灵活地生成多种类型的音频。
    • 可以将生成语音看作生成文字的类似过程。它像 GPT 这样的文本模型一样工作,但处理的不是单词,而是声音数据。
    • 这项技术能够生成多说话人对话,而无需为每个说话人调整模型。
  • SoundStorm:
    • SoundStorm 是 DeepMind 开发的一个多说话人对话生成模型,能够生成多达 30 秒的自然对话段落。
    • 它进一步发展了 AudioLM 和 SoundStream 的基础技术,能够根据不同说话人的标记生成更长、更自然的对话。
    • 可以生成多个人之间的对话,而不是一个人独白。例如,AI 可以模拟一场访谈,两个虚拟人物有问有答,看起来像是“现场”对话。

举例:

  • 你正在和语音助手(比如 Google Assistant)对话,问它:“明天天气怎么样?”以往的语音助手可能会直接回复一句“明天多云”。而用 DeepMind 的技术,语音助手可能会更自然地说:“明天可能会有些多云,记得带把伞哦。”

2. 最新的音频生成技术

  • DeepMind 的新一代音频生成模型能够生成长达 2 分钟的对话,并且保持高质量的音频输出。这项技术通过以下方式实现改进:
    • 更快的生成速度:该模型在 3 秒内即可生成 2 分钟的对话,速度比实时生成快 40 倍。
    • 自然的对话流:模型能够保持说话人之间的连贯切换,输出语音中还包括自然的停顿、口头语(如 “嗯”、“啊”)等细节,使得生成的对话更接近真实交流。
    • 高效的计算架构:利用新的 Transformer 架构,模型能够处理更长的音频序列,同时保持高效的推理过程。这些音频序列以自回归方式生成,意味着模型会逐步生成音频内容,确保准确性和一致性。
Speech_generation_6

动画展示了语音生成模型如何自回归生成音频标记流,并将其解码回由两个说话者对话组成的波形。

3. 多层次的音频压缩与处理

  • 新的语音编码技术可以把音频压缩到 600 bps(比特每秒),比以前的技术更高效,但仍能保持清晰的音质。
  • 生成的“音符”分为多层次,每一层代表不同的语音信息:
    • 第一层:包含基本的语音信息,比如语调和节奏。
    • 后续层次:包含更细致的声音细节,比如声音的音色和细腻的发音。

举例:

  • 在一个教育应用中,AI 正在解释二次方程的解法。以前的 AI 可能会平铺直叙地说:“二次方程的解法是…” 但有了新的技术,AI 可能会用更自然的语气说:“我们现在来看看二次方程的解法吧!首先呢,我们需要…”,不仅保持清晰,还显得更有人情味。

4. 训练方法和数据集

  • 大规模预训练:模型通过数十万小时的语音数据进行预训练,学习如何生成基础的语音结构。
  • 高质量对话微调:为了让模型生成更自然的对话,DeepMind 还使用了小规模的高质量对话数据集进行微调。这个数据集包含真实对话中的细微特征,如非剧本对话、自然停顿和真实的语音变化。

5. 模型的潜在应用

  • DeepMind 的音频生成技术正在应用于多种 Google 产品和实验项目,如:
    • YouTube 自动配音:用 AI 自动为视频生成多语言的配音。以前的配音可能很平淡,但新的技术能让 AI 配音听起来更真实。
    • NotebookLM 音频概述:这是一种新功能,能把文档内容转成两个 AI 角色的对话形式,像是在听一场讨论会。
    • 教育和普及内容:通过将复杂的研究论文或文章转化为自然的对话形式,让人们更轻松地理解。
  • 举例:如果你上传了一篇关于气候变化的文章,AI 会自动生成一个对话版本。例如:
    • AI 1:“气候变化是一个全球性问题。”
    • AI 2:“是的,尤其是温室气体排放带来的影响。”
      这就像是两个专家在讨论,而不是单调的文章朗读。
  • 这项技术的主要应用场景包括:
    • 语音助手:生成更自然、对话性强的语音响应。
    • 教育和普及内容:例如,将研究论文转化为对话形式,帮助用户更轻松地理解复杂的内容。
    • 多模态交互:计划将语音生成技术与视频等其他模式结合,以提升学习体验和信息传达效果。
1030Area

原文:https://deepmind.google/discover/blog/pushing-the-frontiers-of-audio-generation

Related Posts

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM)  让模型更像人类思考
XiaoHu.AI日报

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM) 让模型更像人类思考

2024年12月25日
482
阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型
XiaoHu.AI日报

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

2024年12月25日
336
Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本
AI 工具

Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

2024年12月24日
448
Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音
XiaoHu.AI日报

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

2024年12月24日
278
Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型
AI 论文

Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型

2024年12月23日
614
INFP:基于音频驱动的双人对话中的互动头像生成  能自动区分谁在说话,谁在听
AI 项目

INFP:基于音频驱动的双人对话中的互动头像生成 能自动区分谁在说话,谁在听

2024年12月22日
428

Recommendeds

Ideogram 发布2.0 全新版本 写实风格显著提升 接近真实照片 还能生成网页设计页面

Ideogram 发布2.0 全新版本 写实风格显著提升 接近真实照片 还能生成网页设计页面

580 VIEWS
2024年8月22日
IMAGDressing-v1 :自定义虚拟试衣系统 可灵活控制模特面孔、姿势和场景

IMAGDressing-v1 :自定义虚拟试衣系统 可灵活控制模特面孔、姿势和场景

350 VIEWS
2024年7月20日
一款开源的低成本的机器人手臂,成本只需$250

一款开源的低成本的机器人手臂,成本只需$250

830 VIEWS
2024年4月4日
Multi-LoRA:动态集成多个LoRAs 来精确控制图像的生成过程

Multi-LoRA:动态集成多个LoRAs 来精确控制图像的生成过程

126 VIEWS
2024年3月2日
VLOGGER:基于文本和音频驱动,从单张照片生成会说话的人类视频

VLOGGER:基于文本和音频驱动,从单张照片生成会说话的人类视频

119 VIEWS
2024年3月14日
Pika 推出根据视频内容自动生成音效功能 可以给视频自动配音

Pika 推出根据视频内容自动生成音效功能 可以给视频自动配音

47 VIEWS
2024年3月11日
字节跳动发布AI图像编辑工具:SeedEdit 无需专业图片处理技能 一句话即可实现P图

字节跳动发布AI图像编辑工具:SeedEdit 无需专业图片处理技能 一句话即可实现P图

711 VIEWS
2024年11月12日
NVIDIA 发布全套数字人服务 可根据音频自动生成数字人的身体、面部和姿势

NVIDIA 发布全套数字人服务 可根据音频自动生成数字人的身体、面部和姿势

506 VIEWS
2024年6月3日
Screenpipe:24小时不间断记录你的屏幕和音频数据 帮你自动干活

Screenpipe:24小时不间断记录你的屏幕和音频数据 帮你自动干活

599 VIEWS
2024年9月29日
TryOffDiff :“虚拟脱衣” 从照片中“摘取”衣服,把它变成标准化的服装图片

TryOffDiff :“虚拟脱衣” 从照片中“摘取”衣服,把它变成标准化的服装图片

410 VIEWS
2024年12月1日

Copyright (c) 2024 by Xiaohu.AI.

  • About
  • Contact

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In

Add New Playlist

No Result
View All Result
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
  • Login

© 2024 Xiaohu.AI

Are you sure want to unlock this post?
Unlock left : 0
Are you sure want to cancel subscription?
转到手机版