阿里巴巴发布语音处理模型 FunAudioLLM 能理解和生成各种人类语音

FunAudioLLM 是阿里巴巴开发的一组语音处理模型，旨在改善人类与大语言模型之间的语音交互。它由两个主要模型构成：SenseVoice 和 CosyVoice。

SenseVoice：语音识别模型，这个模型可以识别多种语言的语音，识别说话人的情感，检测音频中的特殊事件（比如音乐、笑声等）。它可以快速而准确地转录语音内容。
CosyVoice：语音生成模式，这个模型主要生成自然且情感丰富的语音。它可以模仿不同的说话人，甚至可以用几秒钟的音频样本来克隆一个人的声音。

通过 SenseVoice 和 CosyVoice 的结合，FunAudioLLM 提供了全面的语音理解和生成功能，使得人与大语言模型之间的语音交互更加自然和丰富。

SenseVoice 和 CosyVoice 的主要功能

SenseVoice 主要专注于多语言语音识别、情感识别和音频事件检测，提供高精度、低延迟的语音处理能力。CosyVoice 则侧重于自然语音生成和控制，支持多种语言、音色和说话风格的生成，能够实现零样本学习和细粒度的语音控制。这两者结合，使得 FunAudioLLM 能够在多种应用场景下提供卓越的语音交互体验。

SenseVoice 主要功能

多语言语音识别
- SenseVoice-Small：支持中文、英语、粤语、日语和韩语五种语言，采用非自回归端到端架构，识别延迟极低，比 Whisper-small 快5倍，比 Whisper-large 快15倍。
- SenseVoice-Large：支持超过50种语言的高精度语音识别。
情感识别
- 识别语音中的情感，如快乐、悲伤、愤怒等情感，通过检测语音的音调、节奏和语调变化来实现。
音频事件检测
- 检测语音中的特殊事件，如音乐、笑声、掌声等，并能预测事件的开始和结束时间。
- SenseVoice-Small 能够检测各种人机交互事件，如背景音乐、掌声、笑声、哭声、咳嗽和打喷嚏等。
语言识别
- 能够识别说话者所使用的语言，确保语音识别的准确性和上下文理解。
逆文本规范化（Inverse Text Normalization, ITN）
- 提供带标点和格式化的转录结果，提高转录文本的可读性和准确性。

主要特点

多语言语音识别：训练数据超过40万小时，识别性能优于 Whisper 模型。
高效推理：SenseVoice-Small 模型采用非自回归端到端框架，推理延迟极低，处理10秒音频只需70毫秒，速度比 Whisper-Large 快15倍。
情感识别：在多个测试数据集上，达到了当前最佳情感识别模型的效果。
事件检测：支持多种常见的音频事件检测。
便捷的微调：提供便捷的微调脚本和策略，用户可以根据业务场景轻松解决长尾样本问题。
服务部署：提供服务部署管道，支持多并发请求，客户端语言包括 Python、C++、HTML、Java 和 C# 等

CosyVoice 主要功能

语音生成
- 支持多语言语音生成，包括中文、英语、粤语、日语和韩语。
- 能够生成自然且情感丰富的语音，支持不同的说话风格和情感表达。
多样化的语音控制
- 音色控制：可以精确控制生成语音的音色，使其与特定说话者的声音匹配。
- 说话风格控制：通过文本指令控制语音的说话风格，如情感、语速、音高等。
零样本学习
- 通过仅几秒钟的音频样本进行声音克隆，无需额外训练数据。
- 支持跨语言的声音克隆，实现用一种语言的声音说另一种语言的话。
细粒度的副语言特征控制
- 支持插入笑声、呼吸声、语气词等细微的语音特征，使生成的语音更加自然和生动。
- 文本指令控制：可以通过文本指令精确控制说话人的身份、情感和说话风格。
多角色对话
- 能够生成多角色的对话语音，适用于互动播客、情感聊天等场景。