Menu

  • Home
  • Trending
  • Recommended
  • Latest

分类目录

  • AI 工具
  • AI新势力
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
XiaoHu.AI学院
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
No Result
View All Result
  • Login
XiaoHu.AI学院
No Result
View All Result
Home AI 工具

Stability AI发布Stable Audio 2.0 可生成长达三分钟的立体声音乐

by 小互
2024年4月3日
in AI 工具
0 0
0
0
SHARES
652
VIEWS
Share on FacebookShare on Twitter

Stability AI宣布推出Stable Audio 2.0,这是一个新型模型,能从单一的自然语言提示生成高质量、具有连贯音乐结构的完整音轨,最长可达三分钟,音质为44.1 kHz立体声。与之前的版本相比,Stable Audio 2.0不仅支持文本到音频的转换,还新增了音频到音频的功能,允许用户上传音频样本并将其转换为各种声音。这一更新还扩展了声效生成和风格转换功能,提供了更大的灵活性、控制权。

新模型的特点

  1. 高质量全长音轨生成: 能够从单一的自然语言提示生成最长达三分钟的完整音轨,音质为44.1 kHz立体声。这些音轨具有连贯的音乐结构,包括引言、发展、高潮和结尾,提供了完整的音乐体验。

    举例:假设一位音乐制作人想要创作一首电子舞曲,但目前只有一个大致的概念。通过使用Stable Audio 2.0,他可以输入一个描述性的自然语言提示,比如“创作一首充满活力的电子舞曲,带有鼓点、合成器旋律,适合夜晚派对氛围”。Stable Audio 2.0将基于这个提示,自动生成一首最长三分钟的完整电子舞曲,这首曲子将包含一个引言部分,用于吸引听众的注意;一个发展部分,展现曲子的主旋律和节奏;以及一个结尾部分,为整首歌曲画上完美的句号。整个过程还会包括高质量的立体声声效,使得生成的音轨听起来更加丰富和专业。

  2. 音频到音频转换能力: 新增的音频到音频功能允许用户上传音频样本,并通过自然语言提示将这些样本转换成各种声音。这为用户创造独特音效提供了更大的灵活性。

    举例:考虑到一位游戏开发者需要为其即将发布的城市探险游戏制作背景音乐和环境声效。通过Stable Audio 2.0,开发者能上传一些基础的城市环境声样本,比如汽车鸣笛声、人群交谈声等,然后使用自然语言提示来指导模型转换这些样本为游戏中需要的各种声效,如增强的街道嗡嗡声、下雨声或是特定场景下的人群欢呼声,从而为游戏提供了更加生动和真实的听觉体验。

  3. 声效生成与风格转换: Stable Audio 2.0能够产生丰富的声音和音频效果,从键盘轻敲声到人群欢呼声或城市街道的嗡嗡声。此外,它还提供了风格转换功能,能够无缝地修改新生成或上传的音频以符合项目的特定风格和调性。

    举例:假设一位电影导演正在寻找特定风格的音乐来配合其电影的某个场景,该场景是在一个古老的、神秘的森林中。导演可以将一段已有的音乐上传至Stable Audio 2.0,并使用风格转换功能,通过输入提示如“将这段音乐转换为更加古老和神秘的森林风格”,模型便能自动调整上传音乐的风格,使其与电影场景的氛围和调性完美匹配。

X2Twitter.com_1775501402392903681(1080p)

用户现在还可以上传音频样本,并通过自然语言提示将这些样本转换成各种声音

技术方法

Stable Audio 2.0 使用了一系列先进的技术方法来实现其创新的音乐生成能力,主要包括:

潜在扩散技术

  • 高度压缩的自编码器:这种自编码器能将原始音频波形压缩成更短的表示形式。它捕获并再现音频的核心特征,同时过滤掉不那么重要的细节,从而生成更连贯的音乐作品。
  • 扩散变换器(DiT):扩散变换器逐步将随机噪声精炼成结构化数据,识别复杂的模式和关系。结合高度压缩的自编码器,DiT能够处理更长的序列,从输入中创建更深入、更精确的解释。

技术架构

Stable Audio 2.0的技术架构被专门设计来生成具有连贯结构的全长音轨。通过对系统的所有组件进行改进,提高了模型在长时间尺度上的性能。模型的两大关键技术——高度压缩的自编码器和扩散变换器(DiT),共同工作,使模型能够识别和复制对高质量音乐作品至关重要的大规模结构。

官方提示词指导

 

Get more from your audio creations by adding structure to your prompts.
在提示语中加入结构,让音频创作发挥更大作用。

There are a few ways you can structure your prompts using Format, Genre, Sub-genre, Instruments, Moods, BPM and Styles.
您可以使用格式、流派、子流派、乐器、情绪、节拍和风格等几种方法来构建提示。

First, you need to think about what you want to create. For example, to create a single drum stem, start your prompt with ‘Format: Solo‘ and ‘Instruments: drum’.
首先,你要想好要创建什么。例如,要创建一个单独的鼓干,请在提示符下输入 “格式:独奏 “和 “乐器:鼓”:独奏 “和 “乐器:鼓”。

It’s best to separate the prompt structure with a ‘|’.
最好用”|”分隔提示结构。

Example: Format: Solo | Instruments: drum.
举例说明:格式:独奏 | 乐器:鼓。

提示词指南:https://stableaudio.com/user-guide/prompt-structure

官方介绍:https://stability.ai/news/stable-audio-2-0

在线体验:stableaudio.com

Related Posts

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM)  让模型更像人类思考
XiaoHu.AI日报

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM) 让模型更像人类思考

2024年12月25日
483
阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型
XiaoHu.AI日报

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

2024年12月25日
337
Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本
AI 工具

Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

2024年12月24日
449
Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音
XiaoHu.AI日报

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

2024年12月24日
278
Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型
AI 论文

Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型

2024年12月23日
616
INFP:基于音频驱动的双人对话中的互动头像生成  能自动区分谁在说话,谁在听
AI 项目

INFP:基于音频驱动的双人对话中的互动头像生成 能自动区分谁在说话,谁在听

2024年12月22日
428

Recommendeds

Exactly AI:学习你的艺术风格,几秒钟创建属于你风格的图像

Exactly AI:学习你的艺术风格,几秒钟创建属于你风格的图像

141 VIEWS
2024年4月6日
Google 正式推出 Gemini AI 驱动的视频演示应用 Vids 通过简单提示即可生成视频演示

Google 正式推出 Gemini AI 驱动的视频演示应用 Vids 通过简单提示即可生成视频演示

461 VIEWS
2024年11月10日
OpenAI 提出了一种新方法  来提高模型输出答案的可读性 确保输出正确且易于理解

OpenAI 提出了一种新方法 来提高模型输出答案的可读性 确保输出正确且易于理解

254 VIEWS
2024年7月18日

Prompt 学习地图 29 | 国产大模型及提示词适配

324 VIEWS
2024年5月20日
BinaryVectorDB: 二进制向量数据库 速度提高20倍 成本降低100倍

BinaryVectorDB: 二进制向量数据库 速度提高20倍 成本降低100倍

43 VIEWS
2024年3月30日
Pipedream:快速连接和集成超过2000多个应用程序

Pipedream:快速连接和集成超过2000多个应用程序

125 VIEWS
2024年3月31日
苹果发布8种小型语言模型 OpenELM 可运行在各种移动设备上

苹果发布8种小型语言模型 OpenELM 可运行在各种移动设备上

101 VIEWS
2024年4月27日
Hume AI发布其情感智能的语音接口 EVI API 可集成到任何应用中

Hume AI发布其情感智能的语音接口 EVI API 可集成到任何应用中

227 VIEWS
2024年4月24日
Anthropic 罕见的主动公布了 Claude 的系统提示词 并承诺将定期更新

Anthropic 罕见的主动公布了 Claude 的系统提示词 并承诺将定期更新

1.3k VIEWS
2024年8月28日
PixelPlayer:自动从视频中识别和分离声音源,并与画面匹配

PixelPlayer:自动从视频中识别和分离声音源,并与画面匹配

286 VIEWS
2024年3月6日

Copyright (c) 2024 by Xiaohu.AI.

  • About
  • Contact

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In

Add New Playlist

No Result
View All Result
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
  • Login

© 2024 Xiaohu.AI

Are you sure want to unlock this post?
Unlock left : 0
Are you sure want to cancel subscription?
转到手机版