SpeechVerse：通用音频语言模型可进行自动语音识别、语音翻译、情感识别

SpeechVerse是由亚马逊 AWS 人工智能实验室开发的一个大型通用音频语言模型（Audio Language Model），其设计目的是将大语言模型（LLM）的强大能力扩展到多模态任务，特别是处理语音数据。传统的语言模型主要处理文字，而SpeechVerse通过结合预训练的语音和文本模型，实现了多任务训练和指令微调，使模型能够执行多种语音处理任务，如自动语音识别（ASR）、语音翻译（ST）、情感识别（ER）等。 SpeechVerse在多种语音处理任务中展示了其卓越的性能，特别是在ASR、语音翻译和情感识别等任务中表现优越。模型的多任务学习和指令微调方法使其能够在多种任务和数据集上实现良好的泛化能力。 功能特点 多任务训练和指令微调

SpeechVerse能够在多个语音处理任务上进行训练，如自动语音识别（ASR）、语音翻译（ST）、情感识别（ER）等。通过指令微调，使模型能够理解和执行自然语言指令。 结合预训练的语音和文本模型

利用预训练的语音基础模型和大型语言模型（LLM），通过少量可学习参数将二者结合，提升对语音的理解和处理能力。 零样本性能

SpeechVerse在不需要针对特定任务进行额外训练的情况下，能够直接处理新的语音任务，实现零样本学习的能力。 课程学习和低秩适应（LoRA）

采用课程学习方法，分阶段训练模型，先训练卷积模块，再引入低秩适应技术，确保快速收敛，避免过拟合和遗忘。 处理多种语音任务

自动语音识别（ASR）：将语音转录为文本。 语音翻译（ST）：将一种语言的语音翻译为另一种语言。 情感识别（ER）：识别语音中的情感，如快乐、悲伤、愤怒等。 意图分类（IC）：识别语音中的用户意图，如播放音乐、查询时间等。 关键字提取（KWE）：从语音中提取重要关键字。 口音分类（AC）：识别语音的口音类型。 强大的指令理解和执行能力

SpeechVerse能够理解并执行开放式和复杂的自然语言指令，展示了对新任务和新指令的强大适应能力。 鲁棒性和泛化能力

通过多任务学习，模型在面对不同的任务和指令变化时表现出色，具有良好的鲁棒性和泛化能力。 联合解码

支持多步骤任务处理，例如同时进行语音识别和情感识别，通过联合解码提高任务处理的准确性和效率。 技术方法 1. 架构设计 SpeechVerse的架构由三个主要组件组成：

预训练音频编码器 ：用于将音频信号编码成特征序列。 一维卷积模块 ：对音频特征序列进行下采样，缩短序列长度。 预训练大型语言模型（LLM） ：利用音频特征和文本指令执行所需任务。 具体架构如下：

音频编码器 ：采用自监督预训练的语音基础模型。音频编码器由L层组成，每一层生成一个特征序列。通过学习参数对这些特征序列进行加权求和，形成统一的音频特征表示。 卷积下采样模块 ：通过多层一维卷积层对音频特征进行下采样，将其转换为适合与文本特征结合的形式。 大型语言模型 ：预训练的LLM接收下采样的音频特征和文本指令，将它们拼接后进行处理。 2. 多模态指令微调 多模态指令微调过程包括：

使用多个任务的数据集进行训练，如ASR、ST、ER等。 每个样本包含音频序列、文本指令和对应的标签。 模型在训练过程中，通过最大化生成目标标签的可能性来学习。 训练损失函数定义为： 𝐿(Θ)=−log⁡𝑝(𝑥𝜏,𝑝𝜏,𝑦𝜏;Θ) L ( Θ ) = − log p ( x τ , p τ , y τ ; Θ ) 其中， Θ Θ 表示模型的所有参数，包括音频编码器、卷积下采样模块和LLM。

3. 课程学习与低秩适应（LoRA） 课程学习分两个阶段进行：

第一阶段 ：仅训练卷积下采样模块和中间层权重，使用ASR任务的数据对音频特征进行对齐。 第二阶段 ：引入LoRA适配器，训练卷积下采样模块和LoRA适配器，同时加入其他任务的数据进行联合训练。 LoRA方法通过引入低秩矩阵来减少训练参数，避免过拟合和灾难性遗忘。

4. 实验与评估 在实验中，SpeechVerse使用了多个公开数据集进行训练和评估，任务包括：

ASR ：自动语音识别，使用Librispeech、Mozilla Common Voice等数据集。 ST ：语音翻译，使用CoVost2和EuroParl数据集。 IC/SF ：意图分类和槽位填充，使用SLURP数据集。 KWE ：关键字提取，使用合成的数据集。 ER ：情感识别，使用MSP-Podcast数据集。

评估指标包括词错误率（WER）、BLEU得分、准确率（ACC）、F1得分等。

5. 泛化能力 模型在处理未见过的任务和指令时表现出色，通过以下策略提升泛化能力：

约束解码 ：在分类任务中限制输出词汇，提升在未见任务上的性能。 联合解码 ：通过多步骤任务处理，提升任务处理的准确性和效率。 6. 具体技术细节 音频编码器 ：采用WavLM-Large和Best-RQ作为音频编码器，分别使用不同的采样率和卷积层参数。 LoRA参数 ：在Task-FT模型中，LoRA适配器的秩为8，多任务模型中为16。 学习率和训练设置 ：使用AdamW优化器，学习率设为0.001或0.005，具体取决于模型架构，批次大小为768或2048。 7. 未来工作 未来，SpeechVerse计划扩展其处理更复杂指令和新领域任务的能力，通过进一步优化模型架构和训练方法，提高其在多任务和多模态环境下的性能。

评估结果 ASR任务 ：SpeechVerse在ASR任务上的表现略优于Whisper ASR，特别是在LibriSpeech Test-Clean和Test-Other数据集上，表现尤为突出。 语音翻译任务 ：SpeechVerse在英语到德语和法语的翻译任务上表现优越，BLEU得分显著高于其他模型。 意图分类和槽位填充 ：SpeechVerse在SLURP数据集上的意图分类和槽位填充任务中表现出色，准确率和F1分数均优于基线模型。 情感识别 ：SpeechVerse在情感识别任务上的UAR分数显著高于现有最先进模型，展示了强大的情感识别能力。 关键词提取和搜索 ：SpeechVerse在关键词提取和关键词搜索任务中表现出色，特别是在关键词搜索任务中，准确率接近100%。 论文： https://arxiv.org/pdf/2405.08295