Menu

  • Home
  • Trending
  • Recommended
  • Latest

分类

  • AI 工具
  • AI新势力
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
XiaoHu.AI学院
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
No Result
View All Result
  • Login
XiaoHu.AI学院
No Result
View All Result
Home XiaoHu.AI日报

  NVIDIA 发布一款音乐生成模型:Fugatto 可以对声音生成与转换进行精细化控制

by 小互
2024年11月26日
in XiaoHu.AI日报
0 0
0
  NVIDIA 发布一款音乐生成模型:Fugatto 可以对声音生成与转换进行精细化控制
0
SHARES
232
VIEWS
Share on FacebookShare on Twitter

NVIDIA 发布了一款音乐生成人工智能模型:Fugatto。通过简单的文本提示或音频输入,用户可以创作全新的声音景观或修改已有的声音元素。例如,用户可以通过文字提示创作音乐片段、调整语音的口音与情绪、添加或删除乐器,甚至生成从未听过的独特声音效果。

Fugatto 提供对声音生成与转换的精细化控制,用户可以结合多种艺术属性,例如调整语音的情感和口音强度,或创作动态变化的声音场景。

11月26日 1

1. 音频生成与转换的多任务支持

  • **文本生成音频:**根据用户的文本提示,生成符合描述的音乐、语音或声音效果。例如,一段带有特定情感或风格的音乐。
  • **音频转换:**支持对现有音频的修改,例如添加或删除乐器、调整语音的情感、口音或语调。

2. 高度个性化的艺术控制

  • **组合式指令 (ComposableART):**允许用户结合多种属性,如“用法国口音讲述悲伤的故事”,并精确调整这些属性的强度。
  • **时序插值 (Temporal Interpolation):**生成动态变化的声音,例如模拟雨声由近及远或逐渐转变为清晨鸟鸣。

3. 创作从未听过的声音

  • Fugatto 不局限于重现训练数据,支持生成全新且未曾存在的声音效果,例如“让小号发出狗吠声”或“萨克斯风模仿猫叫”。

4. 多语言与多口音支持

  • **多语言生成:**支持不同语言的文本到语音生成,适用于跨区域或多语言场景。
  • **多口音调整:**轻松为语音添加不同地区的口音,例如美国、法国或中国口音。

5. 动态音频与场景生成

  • 能够根据用户的描述生成完整的动态音频场景。例如,从风暴中逐渐过渡到宁静的清晨,用音频描绘情感变化。

6. 灵活的应用场景

  • **音乐创作:**为音乐人提供快速创意原型工具,支持风格、音色、情感的自由切换。
  • **广告配音:**调整现有广告的语音口音或情感,快速适应不同市场需求。
  • **语言学习:**提供个性化的教学语音,例如以家人或朋友的语音讲解。
  • **游戏开发:**实时调整游戏音效,适应动态场景需求,或从文本生成全新音频素材。

7. 高品质音频生成

  • 通过少量的额外数据微调,Fugatto 能够执行未曾训练过的新任务,例如从文本提示生成高质量的歌声。

官方博客:https://blogs.nvidia.com/blog/fugatto-gen-ai-sound-model/

Related Posts

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM)  让模型更像人类思考
XiaoHu.AI日报

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM) 让模型更像人类思考

2024年12月25日
520
阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型
XiaoHu.AI日报

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

2024年12月25日
375
Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本
AI 工具

Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

2024年12月24日
490
Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音
XiaoHu.AI日报

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

2024年12月24日
297
Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型
AI 论文

Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型

2024年12月23日
688
INFP:基于音频驱动的双人对话中的互动头像生成  能自动区分谁在说话,谁在听
AI 项目

INFP:基于音频驱动的双人对话中的互动头像生成 能自动区分谁在说话,谁在听

2024年12月22日
460

Recommendeds

VoiceCraft:无样本文本到语音转换和语音编辑模型

VoiceCraft:无样本文本到语音转换和语音编辑模型

45 VIEWS
2024年3月23日
Kyutai 发布全新的开源 AI 语音助手 Moshi 平替 OpenAI 的GPT 4o

Kyutai 发布全新的开源 AI 语音助手 Moshi 平替 OpenAI 的GPT 4o

657 VIEWS
2024年7月4日
OminiControl:基于FLUX.1的通用的控制框架 通过参考图像来控制图像生成的结果

OminiControl:基于FLUX.1的通用的控制框架 通过参考图像来控制图像生成的结果

267 VIEWS
2024年11月26日
Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

297 VIEWS
2024年12月24日
Ebook2Audiobook:将电子书自动转换为有声书 支持语音克隆、多种语言

Ebook2Audiobook:将电子书自动转换为有声书 支持语音克隆、多种语言

403 VIEWS
2024年10月7日
MedSAM-2:基于SAM-2 的能够处理多种2D和3D医学图像的模型

MedSAM-2:基于SAM-2 的能够处理多种2D和3D医学图像的模型

327 VIEWS
2024年8月6日
Emilia 一个开源多语言高质量语音数据集 包含六种语言 超10万小时

Emilia 一个开源多语言高质量语音数据集 包含六种语言 超10万小时

330 VIEWS
2024年7月15日
智谱 AI 这次是真的国际领先了 发布AutoGLM 一句话手机自动帮你点外卖、订酒店买东西

智谱 AI 这次是真的国际领先了 发布AutoGLM 一句话手机自动帮你点外卖、订酒店买东西

1.3k VIEWS
2024年10月25日
微软发布Phi-3.5-vision 轻量级、多模态的开源模型 端侧运行 可进行复杂视觉推理

微软发布Phi-3.5-vision 轻量级、多模态的开源模型 端侧运行 可进行复杂视觉推理

529 VIEWS
2024年8月21日
字节跳动发布AI开发工具:豆包MarsCode 无需配置环境实现云端编码开发

字节跳动发布AI开发工具:豆包MarsCode 无需配置环境实现云端编码开发

591 VIEWS
2024年6月27日

Copyright (c) 2024 by Xiaohu.AI.

  • About
  • Contact

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In

Add New Playlist

No Result
View All Result
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
  • Login

© 2024 Xiaohu.AI

Are you sure want to unlock this post?
Unlock left : 0
Are you sure want to cancel subscription?
转到手机版