OpenAI音乐生成模型Jukebox曝光效果惊艳

兄弟们，你猜我发现了什么 原来OpenAI 3年前就开始搞AI音乐生成了 OpenAI在2019年8月份就推出了他们的一 音乐生成模型：Jukebox Jukebox能够根据提供的歌词、艺术家和流派信息生成多种流派和艺术家风格的完整音乐和人声歌曲。 还可以模拟特定艺术家的音乐风格，生成新的音乐作品。 而且据说Jukebox 2即将发布... . [video width="1872" height="1080" mp4="https://img.xiaohu.ai/2024/03/032Area.mp4"][/video] 大规模音乐数据集训练 基于120万首歌曲的大规模数据集进行训练，这些歌曲配备了相应的歌词和元数据。 利用这些丰富的数据资源，Jukebox能够学习和模仿复杂的音乐结构和风格。 数据来源和规模 数据收集 ： 从网络上爬取了 120 万首歌曲（其中 60 万首为英文歌曲）。 收集了对应的歌词和元数据，如艺术家、专辑、流派、年份和常见情绪或播放列表关键词。 音频数据 ： 训练数据为 32-bit、44.1 kHz 的原始音频。 进行数据增强，通过随机混合左右声道生成单声道音频。 元数据和标签 元数据 ： 每首歌的元数据包括艺术家、专辑、流派、年份、情绪标签等。 使用这些元数据对模型进行条件化训练，提高生成音乐的质量和一致性。 主要功能特点 多样化音乐风格生成 ：Jukebox能够生成多种音乐风格和艺术家风格的音乐，包括能够模拟初级唱歌的能力。这意味着Jukebox不仅可以创作乐器演奏的音乐，还可以生成包含人声的歌曲。 原始音频输出 ：与仅生成音乐符号数据的其他模型不同，Jukebox生成的是原始音频数据，包括旋律、和声以及歌声。保持了音乐的高质量，使得生成的音乐听起来更自然、更接近真实演出。 根据歌词生成音乐 ：Jukebox可以根据提供的歌词、艺术家和音乐风格生成新的音乐样本，这意味着它能够在给定创作指导的情况下 从头开始创作新的音乐样本， 即使是在训练过程中未曾见过的歌词。 歌词和旋律同步 ：Jukebox不仅可以生成音乐，还能生成与音乐同步的歌词，实现了音乐和歌词的协同创作。 风格和艺术家模仿 ：它可以根据指定的艺术家和音乐风格生成音乐，允许用户指导生成过程以产生符合特定风格或主题的音乐。 技术细节 VQ-VAE ：Jukebox使用了一种称为VQ-VAE（Vector Quantized Variational AutoEncoder）的技术来压缩音频数据到更低维度的表示，同时保留音乐的重要特征，如音调、音色和音量。 Transformer模型 ：在VQ-VAE的基础上，Jukebox使用Transformer模型生成新的音乐代码。这些代码随后被解码回原始音频，生成新的音乐片段。Transformer模型能够处理长期依赖问题，适合音乐这种需要长时间记忆的数据。 层次结构 ：Jukebox采用了三层VQ-VAE结构，每一层对应不同的压缩率和音频细节级别，使模型能够在不同层次上学习音乐的结构。 条件生成 ：Jukebox模型可以根据艺术家、风格和歌词等信息条件生成音乐。这是通过在训练过程中将这些信息作为附加输入实现的，使得生成的音乐能够反映出指定的特征。 自动歌词对齐 ：面对歌词数据缺乏精确对齐的挑战，Jukebox采用了一种启发式方法来估计歌词与音频之间的对应关系，以及使用先进的歌词对齐技术来提高准确性。 Jukebox 的详细技术细节： 1. 压缩音乐到离散编码 VQ-VAE（向量量化变分自编码器） 模型架构 ： Jukebox 使用 VQ-VAE 模型将音频压缩到离散空间。 使用三层 VQ-VAE，分别对 44kHz 原始音频进行 8 倍、32 倍和 128 倍压缩。 每层 VQ-VAE 的码本大小为 2048。 解决码本崩溃 ： 采用随机重启技术，当某个码本向量的使用频率低于阈值时，将其随机重置为编码的隐藏状态之一。 独立重构输入 ： 使用单独的解码器，从每层的编码重构输入，最大限度地利用上层编码。 频谱损失 ： 增加频谱损失，惩罚输入与重构频谱的差异，确保模型能够重构更高频率的音频。 2. 使用 Transformer 生成代码 三层 Transformer 模型 顶层先验模型 ： 顶层先验模型生成最压缩的编码，捕捉音乐的长程结构。 样本质量较低，但能捕捉高层语义，如歌唱和旋律。 中间层和底层上采样先验模型 ： 中间层和底层上采样先验模型生成较少压缩的编码，增加局部音乐结构，如音色，显著提高音质。 自回归模型训练 ： 使用稀疏 Transformer 的简化变体训练自回归模型，每个模型有 72 层因子化自注意力，处理上下文长度为 8192 个编码（分别对应顶层、中层和底层约 24 秒、6 秒和 1.5 秒的原始音频）。 3. 数据集和训练 数据收集和处理 数据集 ： 从网络上爬取了120万首歌曲（其中60万首为英文歌曲），并附带歌词和元数据（如艺术家、专辑、流派和年份）。 训练数据为 32-bit、44.1 kHz 的原始音频，并通过随机混合左右声道生成单声道音频进行数据增强。 艺术家和流派条件化 ： 在训练顶层 Transformer 时，提供歌曲的艺术家和流派信息。 条件化信息有助于模型生成更高质量的特定风格音乐。 歌词条件化 ： 通过歌词条件化进一步提供上下文信息。 使用简单的启发式方法，将歌词字符线性对齐到每首歌的持续时间内。 对于快节奏歌词（如 hip hop），使用 Spleeter 提取人声并使用 NUS AutoLyricsAlign 获取精确的歌词对齐。 4. 模型生成和重构 生成和上采样 生成过程 ： 训练好所有先验模型后，从顶层生成编码，使用上采样模型逐层上采样，并通过 VQ-VAE 解码器解码回原始音频空间，生成新的歌曲。 高质量音频生成 频谱损失 ： 增加频谱损失，确保模型能够重构更高频率的音频，提高生成音频的质量。 5. 局限性和未来方向 当前局限性 噪声问题 ： 由于下采样和上采样过程，生成的音频存在可识别的噪声。 采样速度 ： 由于采样的自回归性质，生成一分钟的音频大约需要9小时。 数据范围 ： 目前模型主要在英语歌词和西方音乐上训练，未来计划扩展到其他语言和全球音乐。 未来研究方向 改进 VQ-VAE ： 改进 VQ-VAE 以捕捉更多的音乐信息，减少噪声，提高音质。 人机合作 ： 进一步研究通过 MIDI 文件和音轨文件进行条件化生成，提高音乐性，为音乐家提供更多控制。 全球音乐数据 ： 扩展训练数据集，包括更多语言和全球各地的音乐。 通过这些技术方法，Jukebox 在音乐生成的质量、连贯性、音频样本长度以及艺术家、流派和歌词条件化方面取得了显著进展，但仍有进一步改进的空间。 项目地址： https://openai.com/research/jukebox 论文： https://cdn.openai.com/papers/jukebox.pdf GitHub： https://github.com/openai/jukebox 演示列表： https://soundcloud.com/openai_audio

Menu

分类目录

OpenAI音乐生成模型Jukebox曝光效果惊艳

Related Posts

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM) 让模型更像人类思考

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

Fireworks AI新功能能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

Anthropic 公布了一种全新的 AI 越狱技术可以轻松破解所有前沿模型

INFP：基于音频驱动的双人对话中的互动头像生成能自动区分谁在说话，谁在听

Recommendeds

HairFastGAN：将一张照片上的人物发型转移到另一张照片上

Molmo 一个完全开源的多模态模型支持2D指向交互性能仅次于GPT-4o

StoryMaker：一致性角色图像解决方案能同时保持面部、服装、发型和身体姿态一致性

解锁Midjourney工作流程如何使用图像提示进行创造性工作

Jina AI发布 Jina ColBERT v2：一个多语言的晚期交互信息检索模型

更改图像风格但保持角色和姿势一致的简单方法

教程：使用 Glif 利用Flux Schnell模型创建四格漫画故事板和分镜头剧本

X AI 发布Grok-1.5 Vision多模态模型预览多项基准测试领先GPT 4V

Uizard 发布 Autodesigner 2.0 AI设计引擎只需文字或截图几秒钟内完成网站设计

支付宝发布 EchoMimicV2 ：从数字脸扩展到数字人可以通过图片+音频生成半身动画视频

Welcome Back!

Retrieve your password

Add New Playlist

Are you sure want to unlock this post?

Are you sure want to cancel subscription?

Menu

分类目录

OpenAI音乐生成模型Jukebox曝光 效果惊艳

大规模音乐数据集训练

Support authors and subscribe to content

加入会员

Related Posts

Recommendeds

Welcome Back!

Retrieve your password

Add New Playlist

Are you sure want to unlock this post?

Are you sure want to cancel subscription?

OpenAI音乐生成模型Jukebox曝光效果惊艳