AMT-APC：自动生成钢琴伴奏模型将任意音乐转换成与原曲匹配钢琴伴奏

钢琴是全球范围内最受欢迎的乐器之一。为特定歌曲创作钢琴伴奏通常需要高度的音乐知识和技术，而这种技术难度使得普通人难以完成。

钢琴伴奏制作通常需要丰富的音乐知识和很强的技术水平。例如，要为一首流行歌曲创作钢琴伴奏，首先需要听出歌曲中的旋律和和弦进程，再将其转录为钢琴演奏可以使用的乐谱。这是一个复杂且耗时的过程，尤其对没有专业音乐背景的人来说。因此，自动钢琴伴奏生成技术应运而生。

AMT-APC 是一种用于 自动生成钢琴伴奏 的模型，该模型的主要功能是通过从音频文件（例如一首歌或音乐片段）中提取信息，并根据音频中的旋律、和弦和节奏等特征，生成与原曲匹配的钢琴伴奏。这个伴奏不仅要准确地再现原始音乐中的旋律、和弦、节奏等，还要与原始音乐的风格相匹配。

AMT-APC 主要功能特点：

自动生成钢琴伴奏：AMT-APC 的核心功能是自动生成与音频或音乐视频匹配的钢琴伴奏。用户可以输入任何音乐音频或视频，系统会根据该音频生成高质量的钢琴演奏。无需手动编写乐谱或进行复杂的音乐转录。
高保真度伴奏：能够准确捕捉音频中的旋律、和弦、节奏和音符信息，生成的伴奏与原曲非常接近。其高保真度确保伴奏在节奏、旋律和音符上高度还原原曲的细节。
多样化风格生成：引入了风格向量（Style Vector），可以根据不同风格生成多种风格的钢琴伴奏。用户可以选择生成欢快、平静、激烈等不同情感风格的伴奏。这使得同一首音乐可以拥有多样化的钢琴演奏表现。
支持复杂乐曲：AMT-APC 可以处理多种不同复杂程度的音乐，无论是简单的旋律还是复杂的多乐器编曲，模型都能生成相应的钢琴伴奏。尤其在流行音乐、古典音乐等方面有良好表现。
风格控制功能：用户可以通过控制风格向量来影响生成的伴奏风格，从而使系统生成的伴奏不仅在技术上精确，还能在情感上符合用户的需求。

Original: Mrs. GREEN APPLE「ライラック」Official Music Video – YouTube

Original: 【Ado】向日葵 – YouTube

技术方法

AMT-APC 的核心架构基于自动音乐转录（AMT）模型，采用了 hFT-Transformer 作为基础模型，通过深度学习方法进行预训练和微调。其核心流程分为两个阶段：

AMT 预训练：模型首先在 AMT 任务上进行预训练，目的是学习如何从音频中准确地转录音符（如音符的开始和结束时间、音高等）。
APC 微调：在预训练完成后，模型在钢琴伴奏生成任务上进行微调，使其能够生成与输入音频相匹配的高质量钢琴伴奏。

AMT-APC 采用了以下关键技术来实现自动钢琴伴奏生成：

预训练和微调（Pre-training & Fine-tuning）：AMT-APC 先使用标准的 AMT 任务进行预训练，以便模型能够掌握基本的音符转录能力。然后，通过在大量钢琴伴奏数据集上进行微调，使模型具备生成钢琴伴奏的能力。在 AMT 预训练的基础上，AMT-APC 进行钢琴伴奏生成任务的微调。微调时，模型通过交叉熵损失来优化输出结果。损失函数分别计算 onsets、frames 和 velocities 的误差，并通过多层模型进行优化，最终生成保真度高的钢琴伴奏。
- 矩阵输出的损失计算：模型输出的 onsets、frames 和 velocities 分别计算损失值，优化过程中重点关注音符位置的准确性，确保生成的钢琴伴奏与原曲保持一致。
hFT-Transformer 架构：AMT-APC 选择了性能较好的 hFT-Transformer 作为其基础模型。该模型可以从音频中准确捕捉钢琴演奏的各种要素，如音符的开始时间（onsets）和结束时间（offsets）、音符的力度（velocity）等。与传统的模型不同，hFT-Transformer 使用二维的钢琴卷轴形式来表示这些信息，这样的表示更接近实际演奏。
风格向量的使用：为了生成多样化的钢琴伴奏，AMT-APC 引入了 风格向量。风格向量是从已有的钢琴伴奏中提取的，用于表示不同的演奏风格。该向量使得模型能够学习并应用多种风格，如平静或激烈的风格。风格向量由三个关键分布组成：
- Onset 率分布：表示音符在特定时间段内的分布频率。
- 力度分布：代表钢琴演奏的音量强弱（128 级）。
- 音高分布：表示整个钢琴伴奏中音符的音高分布（88 级）。
风格向量通过这些分布的概率表示，并以24维的向量形式输入到模型中，用于调整生成的伴奏风格。