阿里巴巴发布语音模型：Qwen2-Audio 可与模型直接语音对话和分析转录各种声音

阿里巴巴发布了一个音频处理模型：Qwen2-Audio ，它可以通过语音聊天和音频分析两种方式与用户互动。在语音聊天模式下，用户可以与模型进行直接的语音对话；在音频分析模式下，用户可以上传音频文件进行转录分析等。 Qwen2-Audio 能够识别语音中的情感，如愤怒、快乐、悲伤等，为情感计算和用户情感体验提供支持。 用户无需区分语音聊天和音频分析模式，模型能够智能识别并在实际使用中无缝切换两种模式。 语音聊天（Voice Chat） ： 用户可以通过语音直接与模型进行交互，而无需使用传统的自动语音识别（ASR）模块。这意味着用户可以直接用语音下达指令，模型将根据语音输入生成相应的文本输出。 音频分析（Audio Analysis） ： 模型具备强大的音频分析能力，能够根据文本指令分析和解读各种类型的音频信息，包括语音、声音、音乐等。这使得 Qwen2-Audio 能够在多个场景中进行复杂的音频处理任务。 多语言支持（Multilingual Support） ： Qwen2-Audio 支持多达8种语言和方言，包括中文、英文、粤语、法语、意大利语、西班牙语、德语和日语。这使得该模型在全球范围内具有广泛的应用潜力，能够服务于多语言环境中的用户。 Qwen2-Audio 在多个测试中表现优异，能够准确识别和翻译语音，并进行情感识别和声音分类等任务。 Qwen2-Audio 主要功能 1. 语音聊天模式 自由语音交互 ：用户可以通过语音与 Qwen2-Audio 进行对话，无需文本输入。模型能够理解和响应用户的语音指令，实现类似人类的对话体验。 2. 音频分析模式 音频与文本指令分析 ：用户可以提供音频文件和文本指令，Qwen2-Audio 将对这些输入进行分析并给出相应的解释和响应。例如，可以分析音频中的情感、声音类型、语言等信息。 智能内容理解 ：模型可以在音频片段中同时包含声音、多说话者对话和语音指令的情况下，智能地理解指令并提供解释和响应。 音乐分析： 可以分析音乐的节奏、节拍、音乐类型、流派等 情景 ：用户提供了一段音乐，询问其节奏和拍号。

用户输入 ： “这首音乐的节奏和拍号是什么？”

Qwen2-Audio 的回应 ：

分析了音乐的拍号和节奏。 提供了音乐的关键信息，如拍号为4/4，节奏为104.17 BPM。 混合音频分析： 情景 ：用户提供了一段包含多种声音（如警报声、卡车的空气刹车声和引擎声）的音频，询问这些声音的来源。

用户输入 ： “你听到了什么声音？”

Qwen2-Audio 的回应 ：

识别了音频中的各种声音，推测这些声音可能出现在工业环境或紧急情况下。 示例对话 ：

用户： “你听到了什么声音？” Qwen2-Audio： “这些声音可能出现在工业环境，如工地或工厂，或紧急情况，如交通事故。” . Qwen2-Audio： “这些声音可能出现在工业环境，如工地或工厂，或紧急情况，如交通事故。” 。 3. 自动语音识别（ASR） 高精度语音识别 ：Qwen2-Audio 在多种数据集（如 Librispeech、Aishell2 和 Common Voice）上表现出色，能够高精度地将语音转换为文本。 4. 语音到文本翻译（S2TT） 多语言语音翻译 ：模型可以将一种语言的语音转换为另一种语言的文本，在多个翻译方向上表现优异，如英语到德语、德语到英语、英语到中文等。 5. 语音情感识别（SER） 情感分析 ：Qwen2-Audio 能够识别语音中的情感，如愤怒、快乐、悲伤等，为情感计算和用户情感体验提供支持。 6. 声音分类（VSC） 声音类型分类 ：模型可以对各种声音类型进行分类，如人声、音乐、环境声音等，广泛应用于声音识别和分类任务。 7. 多任务预训练和优化 自然语言提示 ：预训练过程中使用自然语言提示，提升了模型的泛化能力和指令跟随能力。 监督微调（SFT）和直接偏好优化（DPO） ：通过高质量的指令数据和偏好优化，进一步提升模型的响应质量和与人类指令的对齐程度。 8. 多模态交互 无缝切换模式 ：用户无需区分语音聊天和音频分析模式，模型能够智能识别并在实际使用中无缝切换两种模式。 技术方法 1. 模型架构 Qwen2-Audio的模型架构由音频编码器和大语言模型组成：

音频编码器 ：初始化基于Whisper-large-v3模型。音频数据被重新采样到16kHz的频率，并转换成128通道的梅尔频谱图，使用25ms的窗口大小和10ms的步长。此外，模型采用具有步幅为2的池化层来减少音频表示的长度，每帧编码器输出大约对应于原始音频信号的40ms片段。

大语言模型 ：Qwen2-Audio的基础组件是Qwen-7B（8.2亿参数），它通过音频表示和之前的文本序列生成下一个文本标记的概率。

2. 预训练 预训练阶段使用自然语言提示代替分层标签：

数据处理 ：将音频数据处理成梅尔频谱图并加入自然语言提示，以提高模型的泛化能力和指令跟随能力。

自然语言提示 ：直接使用自然语言提示来处理各种数据和任务，简化了预训练过程，减少了预训练和后训练阶段之间的差距。

3. 监督微调（SFT） 监督微调通过高质量的SFT数据对模型进行微调，使其输出更符合人类的意图：

数据收集 ：精心收集高质量的SFT数据，并实施严格的质量控制程序。

双模式训练 ：音频分析模式和语音聊天模式进行联合训练，确保用户在实际使用过程中无需区分模式或使用单独的系统提示。

4. 直接偏好优化（DPO） DPO进一步优化模型以符合人类偏好：

三元组数据 ：使用包含输入序列（音频输入）、优质响应和劣质响应的人类注释数据三元组来优化模型。

优化目标 ：最大化偏好模型输出的优质响应概率，最小化劣质响应概率，从而调整模型的行为以更好地符合人类偏好。

5. 评价和实验 为了评估Qwen2-Audio的性能，模型在多个任务和数据集上进行了全面评估：

自动语音识别（ASR） ：在Librispeech、Aishell2等数据集上，Qwen2-Audio的识别错误率（WER）显著低于基准模型。

语音到文本翻译（S2TT） ：在CoVoST2数据集的七个翻译方向上，Qwen2-Audio在BLEU分数上均有显著提升。

语音情感识别（SER）和人声分类（VSC） ：在这些任务中，Qwen2-Audio的准确率（ACC）远超基准模型。

AIR-Bench ：在语音、声音、音乐和混合音频子集的指令跟随能力测试中，Qwen2-Audio展示了最先进的性能。

训练过程 Qwen2-Audio的训练过程分为三个阶段：

多任务预训练 ：使用自然语言提示处理不同类型的数据，提升模型的泛化能力。

监督微调（SFT） ：结合高质量的SFT数据进行微调，使模型输出更符合人类意图。

直接偏好优化（DPO） ：通过偏好模型调整输出，以提高响应的优质性和一致性。

评估结果 Qwen2-Audio在多个任务和数据集上的评估结果显示出其卓越的性能，主要表现如下：

自动语音识别（ASR） Qwen2-Audio在Librispeech、Aishell2和Common Voice等数据集上的识别错误率（WER）显著低于现有的基准模型，表明其在自动语音识别任务中具有优越的准确性。例如，在Librispeech的test-clean和test-other数据集上，Qwen2-Audio分别实现了1.6%和3.6%的WER，这明显优于其他模型。

语音到文本翻译（S2TT） 在CoVoST2数据集的七个翻译方向上，Qwen2-Audio在BLEU分数上均有显著提升。例如，在en-zh和zh-en的翻译任务中，Qwen2-Audio分别获得了45.2和24.4的BLEU分数，显著超越了基准模型。这表明Qwen2-Audio在多语言语音到文本翻译任务中表现出色。

语音情感识别（SER）和人声分类（VSC） 在这些任务中，Qwen2-Audio的准确率（ACC）显著优于基准模型。例如，在VocalSound数据集上的人声分类任务中，Qwen2-Audio达到了93.92%的准确率，远高于其他模型。这表明Qwen2-Audio在理解和分类人声方面具有强大的能力。