字节跳动 Seed-ASR：自动语音识别模型可识别不同语言、方言、口音

Seed-ASR 是字节跳动开发的一种先进的自动语音识别（ASR）模型，基于大语言模型（LLM）框架构建。专门设计用于处理来自不同语言、方言、口音和应用场景的多样化语音信号。 传统的语音识别技术在处理复杂情况时常常会遇到困难，而 Seed-ASR 通过结合语音和上下文信息，能够更准确地将语音转化为文字。 Seed-ASR支持普通话和13种中国方言，以及英语和其他7种语言。它正在扩展以支持超过40种语言。 Seed-ASR在超过2000万小时的语音数据和近90万小时的配对ASR数据上进行了训练。与其他模型相比，该模型在字错误率（WER）上显著降低，表现出卓越的性能。 在多个测试中，Seed-ASR 显示出显著的性能提升，特别是在中文和英文的测试中，错误率降低了10%-40%。 Seed-ASR的主要功能特点： 高识别准确率 ： Seed-ASR 在超过2000万小时的语音数据和近90万小时的配对ASR数据上进行了大规模训练，显著提高了识别准确率。相较于传统的端到端模型，Seed-ASR在各种公共测试集和内部测试集上的字错误率（WER）显著降低，表现出色。 大模型容量 ： Seed-ASR 配备了一个具有近20亿参数的音频编码器，以及一个具有数十亿参数的专家混合（MoE）大语言模型。这使得它能够有效处理复杂的语音输入和丰富的上下文信息，具有强大的建模能力。 多语言支持 ： Seed-ASR 支持普通话及其13种方言的识别，还可以识别英语和其他7种语言。此外，该模型正在扩展，以支持超过40种语言的识别。 上下文感知能力 ： Seed-ASR 能够利用对话历史、视频编辑记录、会议参与细节等多种上下文信息来提高语音转录的准确性。这种集成显著增强了模型在各种应用场景中的关键词召回率。 分阶段训练流程 ： Seed-ASR 的开发经历了一个简单而有效的分阶段训练流程，包括自监督学习（SSL）、监督微调（SFT）、上下文微调（Context SFT）和强化学习（RL）。每个阶段都有明确的角色，确保 Seed-ASR 的性能在各个阶段都得到逐步提升。这种分阶段的训练方法不仅提高了模型的识别精度，还增强了模型的定制化能力和对复杂场景的适应性。 无需额外语言模型的部署能力 ： 与传统的 ASR 模型不同，Seed-ASR 在很多场景下不需要额外的语言模型辅助就可以提供准确的语音识别结果。这一特点使得 Seed-ASR 能够更简便地部署到各种应用中，减少了系统复杂性和资源消耗。 Seed-ASR 能够识别以下几种类型的语音： 1. 多语言语音 普通话及其方言 ：Seed-ASR 支持识别普通话以及13种中国方言（如粤语、吴语、闽南话、东北话等）。 多种外国语言 ：Seed-ASR 支持识别英语、西班牙语、法语、阿拉伯语、日语、韩语、印尼语、葡萄牙语等多种语言，并正在扩展以支持超过40种语言。 2. 多口音语音 Seed-ASR 能够识别带有不同口音的语音输入，如带有不同地区（例如美国、英国、澳大利亚、新加坡等）口音的英语语音，或带有不同方言口音的中文语音。 3. 多领域语音 日常对话 ：Seed-ASR 能够识别日常对话中的语音，无论是简单的交流还是包含复杂上下文的信息。 会议记录 ：模型能够识别和转录会议中的语音内容，包括多说话人场景和带有背景噪音的环境。 视频和直播 ：Seed-ASR 在处理视频和直播中的语音时表现出色，能够适应不同的音频质量和背景环境。 语音搜索 ：适用于智能助手和语音搜索场景，模型能够准确识别和理解用户的语音指令。 特定领域专业术语 ：Seed-ASR 还能够识别包含专业术语的语音输入，如医疗、科技、汽车、音乐等领域的特定内容。 [video width="1824" height="1080" mp4="https://img.xiaohu.ai/2024/08/0820Area.mp4"][/video] 4. 上下文依赖语音 Seed-ASR 具有强大的上下文感知能力，能够识别在特定上下文下的语音内容。例如，模型可以利用历史对话或会议记录来更准确地识别当前语音中的人名、地名或其他上下文相关的关键词。 5. 长语音内容 Seed-ASR 能够处理长时间的语音输入，无需分段处理。这使得它在长时间会议记录、长视频转录等场景下表现尤为出色。 6. 多样化语音信号 Seed-ASR 能够识别多种类型的语音信号，包括清晰语音、低音质语音、有噪音干扰的语音、快语速或慢语速的语音等。 技术方法 1. 框架和模型架构 Seed-ASR 基于音频条件大语言模型（Audio-conditioned Large Language Model, AcLLM）框架构建，核心思想是将语音输入与任务指令和相关上下文信息一起输入到预训练的大语言模型（LLM）中。该框架的主要组件包括： 音频编码器（LUISE） ：使用一个近 20 亿参数的音频编码器来处理语音输入，提取出连续的语音表示。 转换模块 ：连接音频编码器和 LLM 的桥梁，负责将语音表示转换为 LLM 能够理解的语义空间表示。 大语言模型（LLM） ：在得到转换后的语音表示和上下文信息后，LLM 利用其强大的语义推理和文本生成能力，输出对应的文本转录。 2. 分阶段训练流程 为了充分发挥 Seed-ASR 的性能，开发团队设计了一个分阶段的训练流程，具体如下： 自监督学习（SSL） ：在大量未标注的语音数据上训练音频编码器，使其能够捕捉丰富的语音信息。这一阶段采用了类似 BERT 的掩码预测方法，将部分语音信号进行掩码，然后通过模型恢复被掩码的部分，从而学到更好的语音表示。 监督微调（SFT） ：在大量语音-文本对数据上进行微调，训练音频编码器和转换模块以匹配 LLM 的语义空间，使得模型能够准确地将语音表示映射为对应的文本。 上下文微调（Context SFT） ：进一步在包含上下文信息的语音-文本对上进行训练，增强模型利用上下文进行语义推理的能力。这一阶段引入了上下文信息，如对话历史、视频编辑记录等，提升了模型在多样化场景下的准确性。 强化学习（RL） ：在强化学习阶段，通过定义基于 ASR 指标的奖励函数（如单词错误率 WER 和加权单词错误率 WWER），进一步优化模型的文本生成行为，特别是对关键字等重要内容的准确识别。 3. 音频编码器的自监督学习（SSL） 掩码语言预测（Masked Language Prediction） ：借鉴 BERT 模型的训练方法，Seed-ASR 在音频编码器的训练中引入了掩码语言预测。模型首先将语音信号转化为梅尔滤波器组（mel-filterbank）特征，然后通过分块和随机投影的方法获得初步的离散标签，接着在这些标签的基础上进行进一步的训练和迭代。 迭代固定分块编码器 ：通过多次迭代训练音频编码器，使得模型能够逐步优化，捕捉到最佳的语义表示。 4. 上下文感知训练（Context-aware Training） 上下文训练 ：在模型中引入对话历史和其他上下文信息，进行带有上下文信息的训练。这种训练方法有助于模型在面对多义词、方言、口音等模糊的语音内容时，能够更好地利用上下文信息进行准确的转录。 联合束搜索（Joint Beam Search） ：为了解决在使用上下文信息时的幻觉问题，Seed-ASR 引入了一种联合束搜索的解码策略，该策略通过平衡语音信息和上下文信息的重要性，优化转录结果。 5. 强化学习（RL） 最小化单词错误率（MWER）训练 ：在强化学习阶段，Seed-ASR 使用最小化单词错误率（MWER）作为训练目标，同时引入了加权单词错误率（WWER）以强调关键词的重要性。这种方法确保了模型在实际应用中的高识别准确率，特别是在识别对整体句子理解至关重要的部分时。 6. 规模法则（Scaling Law） 规模扩展 ：在自监督学习阶段，Seed-ASR 通过实验探索不同模型大小的性能表现，并发现更大规模的模型在跨域评估集上表现更好。这一发现指导了模型的选择和优化方向。 7. 长时语音处理能力 长时语音输入 ：Seed-ASR 能够直接输入完整的长时语音进行识别，避免了语音分割过程中可能的信息丢失，并保留长时语音中的全局上下文信息，显著提高了长时语音的转录准确性。 评估结果 Seed-ASR 的性能在多个测试集和不同语言、口音的语音识别任务中进行了广泛的评估，并且表现出色。 1. 中文和多语言模型的表现 中文模型 (Seed-ASR CN) ： Seed-ASR CN 不仅支持普通话，还支持 13 种中国方言的识别。与现有的其他大型 ASR 模型相比，Seed-ASR CN 在多个公开的中文语音识别基准测试上都表现出了显著的优势。 例如，在 Aishell-1 和 Aishell-2 等测试集上，Seed-ASR CN 的字符错误率（CER）比其他模型降低了 24%-40%。 多域评估 ： 在包含视频、直播、语音搜索、会议、智能助手等多种场景的多域评估集中，Seed-ASR (CN) 相比其他端到端模型表现出显著的性能优势，字错误率（WER）减少了47%以上。 多方言评估 ： 在13种中国方言的测试集中，Seed-ASR (CN) 的平均字错误率比微调后的Whisper Medium-v2降低了11.4%，在单个方言测试集上的相对WER降低了21%以上。 多口音评估 ： 在11种中国口音的测试集中，Seed-ASR (CN) 显示出卓越的性能，WER比强大的端到端模型降低了57.3%。 对话上下文评估 ： 在对话上下文测试集上，Seed-ASR (CN) 的关键词召回率相比无上下文模型提高了15%以上，显示出模型强大的上下文感知能力。 2. 多语言评估 Seed-ASR (ML) 针对多语言场景进行了广泛的测试，涵盖英语和其他7种语言。 多域、多口音、多语言评估 ： Seed-ASR ML 支持包括英语在内的多种语言。在多语言多域测试集中，Seed-ASR (ML) 相比Google USM、Whisper Large v3等模型，英语多域WER降低了42%，多语言多域WER降低了40%。 在多口音测试集中，Seed-ASR (ML) 在英语多口音评估中表现卓越，相比其他模型的WER减少了22%。 公共测试集表现 ： 在英语和多语言公共测试集（如Librispeech、MLS、Tedlium 3、Callhome等）上，Seed-ASR (ML) 在大部分测试集上均取得了顶尖表现，WER相比其他模型提高了10%到40%。 3. 长语音处理评估 Seed-ASR 在处理长语音时表现优异，通过直接输入长语音数据进行训练和测试，避免了传统分段方法可能导致的信息丢失和识别不一致问题。 在长视频测试集中，Seed-ASR (CN) 在没有分段处理的情况下，WER相对减少了8.8%，展示了模型处理长语音的能力。 4. 主观可理解性评估 在主观评估中，Seed-ASR (CN) 在多个场景下的可理解性评分甚至超过了人类转录者，特别是在专业领域词汇和复杂音频环境下，Seed-ASR 能够更准确地转录内容，表现出更高的可理解性。 案例展示 会议参与者的名字 ： 在邀请参与者加入 Lark 会议时，所有参与者的名字会作为上下文信息使用。 当同一个参与者的名字再次出现时，系统会根据上下文信息进行纠正，确保识别结果的准确性。 [video width="2304" height="1440" mp4="https://img.xiaohu.ai/2024/08/context_demo5.mp4"][/video] 修改记录 ： 在第一个视频中，滑雪专业术语“立刃”可能会被误识别为同音词“利刃”。 但是，用户会在字幕中纠正错误的识别结果。这些修改记录（如“利刃”被改为“立刃”）将被用于识别提示，确保在识别第二个视频时不会再次出现相同的错误。 [video width="1920" height="1080" mp4="https://img.xiaohu.ai/2024/08/context_demo4.mp4"][/video] 代理描述信息 ： 在与对话代理“顾易”进行对话时，系统将代理的描述文本添加到识别提示中，以提高与代理相关描述的识别准确性。 [video width="1080" height="1080" mp4="https://img.xiaohu.ai/2024/08/context_demo3.mp4"][/video] 代理名称 ： 在与名为“枫丹”的对话代理进行对话时，系统将“枫丹”的昵称作为上下文添加到识别提示中，以提高对代理名称的识别准确性。 然而，如果没有提供相关背景知识，代理名称可能会被识别为其他语义上合理的同音词。 [video width="1080" height="1080" mp4="https://img.xiaohu.ai/2024/08/context_demo2.mp4"][/video] 对话历史的内容 ： 在第一次对话中，“庞葱”被错误地识别为同音词“庞冲”，这是因为没有上下文知识的支持。 当再次与 Doubao 讨论《三国演义》中的人物时，加入了之前对话历史的上下文信息，识别出的“庞冲”被正确识别为“庞葱”。 [video width="1080" height="2330" mp4="https://img.xiaohu.ai/2024/08/context_demo1.mp4"][/video] 项目及演示： https://bytedancespeech.github.io/seedasr_tech_report/ 论文： https://arxiv.org/pdf/2407.04675

Menu

分类目录

字节跳动 Seed-ASR：自动语音识别模型可识别不同语言、方言、口音

Related Posts

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM) 让模型更像人类思考

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

Fireworks AI新功能能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

Anthropic 公布了一种全新的 AI 越狱技术可以轻松破解所有前沿模型

INFP：基于音频驱动的双人对话中的互动头像生成能自动区分谁在说话，谁在听

Recommendeds

LivePortrait：只需一张静态肖像图像就能生成动态视频可精确控制眼睛和嘴唇的动作

Perplexica：AI 驱动的问答搜索引擎支持多种搜索模式搜索更加精准

ChatMusician: 基于LLaMA 2 能够理解和生成音乐的大语言模型

一款开源的低成本的机器人手臂，成本只需$250

无需专业技能从文本生成高质量可编辑的矢量图形和动画

Claude 3.5 Sonnet 在 GPQA 测试中达到 67.2% 超越了专业博士的水平

Mini-Omni 支持“边思考边说话” 具备端到端的实时语音输入和输出能力模型

Prompt 学习地图 13 | 框架思维 – ICIO 框架清晰描述模型要执行的任务

VimTS：自动识别图像或视频序中的文本信息并精确提取内容

H2O-Danube3：无需联网可以直接在手机上运行的开源模型

Welcome Back!

Retrieve your password

Add New Playlist

Are you sure want to unlock this post?

Are you sure want to cancel subscription?

Menu

分类目录

字节跳动 Seed-ASR：自动语音识别模型 可识别不同语言、方言、口音

Support authors and subscribe to content

加入会员

Related Posts

Recommendeds

Welcome Back!

Retrieve your password

Add New Playlist

Are you sure want to unlock this post?

Are you sure want to cancel subscription?

字节跳动 Seed-ASR：自动语音识别模型可识别不同语言、方言、口音