Moshi：实时语音到语音生成 Transformer 开源模型 160毫秒低延迟支持随时打断和情感表达

Moshi 是一个多流（multi-stream）的实时语音到语音生成 Transformer 模型，支持全双工语音对话。它的主要特点是可以同时进行语音输入和输出（全双工），能够处理复杂的对话场景，包括重叠的语音、打断和情感表达等非语言信息。 这意味着它可以同时听和说，旨在解决传统对话系统中的一些问题，如延迟、非语言信息的丢失（例如情绪）以及对话轮次的僵化结构。 全双工通信 ：传统的对话系统是基于轮次的对话模式（即一个人说完后，另一个人才开始说）。Moshi 摆脱了这种限制，支持全双工通信。这意味着 Moshi 可以在用户讲话的同时生成语音回应，不受轮次约束，能够处理重叠的语音、打断和快速反馈等复杂的对话动态。 多流处理 ：Moshi 通过处理多个音频流，实现了同时监听和生成语音。这个多流架构使它能够灵活地处理用户和系统之间的语音交互，而不会中断对话的自然流动。 [video width="1152" height="720" mp4="https://img.xiaohu.ai/2024/09/9月23日-2-1.mp4" preload="auto"][/video] 与传统的语音对话系统相比， Moshi 有几个显著优势： 实时响应 ：Moshi 的响应速度非常快， 延迟仅为160-200毫秒 ，接近自然对话中的反应速度，因此可以提供更加流畅的对话体验。 语音到语音的处理 ：传统系统通常依赖语音转文字再生成语音的流程，而 Moshi 可以 直接处理语音输入并生成语音输出 ， 保留了诸如语气、情绪等非语言信息。 全双工对话 ：Moshi 不依赖严格的对话轮次，而是可以同时处理用户和系统的语音，这意味着它 可以应对重叠的语音和打断，更加接近人类对话的自然形式。 [video width="1280" height="720" mp4="https://img.xiaohu.ai/2024/09/9月23日-1.mp4" preload="auto"][/video] Moshi 的主要功能包括： 实时语音到语音对话 ： Moshi 能够直接从音频输入生成音频输出，而不是依赖于传统的语音转文本再转语音的流程。通过直接处理语音数据，Moshi 保留了非语言信息，比如语气、情绪、重叠语音和打断等，确保对话更加自然和流畅。 全双工通信 ： Moshi 具备同时听和说的能力，即它可以在用户讲话的同时生成语音回应，不需要严格的对话轮次。它能够处理复杂的对话情境，例如重叠语音和非中断性的反馈（如 “嗯” 或 “我明白” 这种随时插入的回应）。 低延迟 ： Moshi 的设计使得其具有非常低的延迟，理论上只有160毫秒，实际操作中为200毫秒左右。这意味着 Moshi 可以接近于实时地对用户的输入做出反应，提供更加顺畅的对话体验。 内在独白方法（Inner Monologue Method） ： Moshi 在生成语音之前会先预测文本标记，这种方法显著提升了生成语音的语言质量和一致性。这不仅让生成的语音更加清晰，也提高了系统在流媒体环境下的语音识别和文本转语音的能力。Moshi 通过引入的“内部独白”机制，实现了流式的语音识别（ASR）和文本到语音（TTS）功能，支持持续对话流中对语言和音频的同时处理。 并行处理多个音频流 ： Moshi 能够同时处理用户和系统的语音流。这种多流处理能力使得 Moshi 不仅可以生成自己的语音，还可以实时理解并回应用户的语音。 情感和语音动态处理 ： 通过直接处理语音而非中间文本，Moshi 能够理解和生成带有情感的语音，处理复杂的对话动态，如情感表达、语音变化等。 支持复杂对话动态 ：Moshi 能够处理自然对话中的复杂动态，例如打断、交错讲话、插话和回应。传统的系统依赖明确的对话回合（即一个人说完再轮到另一人），而 Moshi 消除了这种限制，使对话更加自然。 [video width="1280" height="720" mp4="https://img.xiaohu.ai/2024/09/9月23日-1-1.mp4" preload="auto"][/video] 嘈杂环境中的演示

模型架构概述 Moshi主要由三部分组成：Helium，一个使用2.1万亿个token训练的7B语言模型；Mimi，一个建模语义和声学信息的神经音频编解码器；以及一个新的多流架构，该架构分别建模用户和Moshi的音频。 通过这些模块的协同工作，Moshi 实现了流畅的全双工对话、情感表达以及复杂对话动态的处理。 Helium 文本语言模型 ： Helium 是 Moshi 的核心，它是一个拥有 70 亿参数的文本语言模型，基于 Transformer 架构（类似于 GPT）。Helium 的作用是为 Moshi 提供强大的语言理解和生成能力，能够处理复杂的文本推理和对话任务。 它的训练数据包括 2.1 万亿个英语词汇，使其具备广泛的知识和语言能力。 Mimi 神经音频编解码器 ： Mimi 是 Moshi 的音频处理组件，它是一个神经网络音频编解码器，负责将音频转换为离散的语音标记（tokens），并能够反向生成高质量的语音输出。 Mimi 使用残差矢量量化（Residual Vector Quantization, RVQ）技术，将语音数据编码为离散的语音和语义标记，确保语音的高保真度和语言的一致性。 通过结合语义和声学标记，Mimi 不仅能生成自然的语音，还能处理复杂的语音环境和情感信息。 内心独白方法（Inner Monologue Method） ： 内在独白方法 是 Moshi 生成语音的关键技术，它允许模型在生成语音之前，先预测与音频同步的文本标记。这种方法不仅提高了生成语音的语言质量，还允许 Moshi 实现流媒体环境下的语音识别和文本到语音的转换功能。 文本与语音的同步生成 ：在生成音频之前，Moshi 先生成与其语音输出相对应的文本流。这个文本流作为语音生成的基础，使得语音生成的内容更加准确，并且有助于处理复杂的对话场景。 流媒体兼容性 ：这种方法允许 Moshi 在处理语音时，仍然能够在流媒体环境下实现高效的语音识别和文本转语音（TTS）功能。 模型架构旨在处理多个并行的音频流，实时生成语音和文本。Moshi 可以在处理用户语音的同时，生成系统语音，这使其能够支持不间断的自然对话。 详细技术方法 1.语音到语音生成架构 Moshi 的核心创新在于将语音对话视为 语音到语音生成 任务，而不是传统的文本到语音再到语音的多组件流程。传统的语音对话系统包括语音活动检测（VAD）、语音识别（ASR）、自然语言理解（NLU）、自然语言生成（NLG）以及文本到语音（TTS）等多个独立模块。 Moshi 则通过 直接生成语音令牌 ，使得语音在理解和生成过程中不依赖中间的文本表示，避免了信息的丢失（如情感、语气和非语言声音）。 2.Helium 文本语言模型 Moshi 基于 Helium 文本语言模型，后者是一个拥有7B参数的大型文本生成模型。Helium 使用了2.1万亿个英语数据的预训练，具备强大的语言理解、推理和生成能力。它是 Moshi 的语义理解基础，支持复杂的自然语言处理功能，包括开放式对话和问答等。 Helium 关键特性： 自回归 Transformer 架构 ：Moshi 的基础是 Helium，一个基于 Transformer 架构的文本语言模型。与经典的 Transformer 类似，Helium 使用了多层注意力机制和自回归建模方法，处理文本输入并生成输出。模型的参数达到了 7B，足以支持大规模语料的学习。 RMS 归一化 ：在注意力模块、前馈模块和输出层使用 RMS 归一化，提升了模型的训练稳定性。 旋转位置编码（RoPE） ：用于处理更长的上下文窗口（4096 tokens），确保模型能够捕捉对话中的长程依赖关系。 高效的 FlashAttention ：通过优化的注意力计算，使得在长序列输入下的模型推理更加高效。 3. Mimi 神经音频编解码器 Mimi 是 Moshi 中用于语音处理的神经音频编解码器，其任务是将连续的语音信号离散化为 音频令牌 。这些离散音频令牌与文本令牌类似，能够表示语音中的细节信息。Mimi 使用残余矢量量化（RVQ）技术，能够以较低的比特率保留高质量的音频，支持实时语音生成和处理。 Mimi 关键技术： 残余矢量量化（RVQ） ：Mimi 使用了多级残余矢量量化，将复杂的音频信号离散化为多个层次的音频令牌。这种方法使得每个时间步都可以高效编码语音的语义和声学信息，同时保证音频重建的质量。 语义和声学令牌结合 ：Mimi 使用的音频令牌同时包括语义和声学信息。语义令牌保留了语音中的内容（例如说话的具体词语），而声学令牌则描述了语音的音质、情感、语调等音频特征。 流式编码和解码 ：Mimi 支持流式处理，能够在实时对话中连续生成和识别语音。这使得 Moshi 的响应速度非常接近自然对话。 4.RQ-Transformer 架构 Moshi 使用了一种 多流层次化生成架构 ，这种架构可以并行处理多个音频流。Moshi 通过同时建模用户的语音流和系统自身的语音流，实现对话中的灵活互动，允许讲话者之间的交错、打断和插话等复杂对话动态。 这是一种先前为离散图像生成提出的架构，使得可以在不增加Helium序列长度的情况下对语义和声学token的层次进行建模。这意味着每秒音频只需要通过7B主干模型12.5次， 这可以在L4或M3 Macbook pro上实时运行 ！结合MusicGen的token延迟，这为音频语言建模提供了最先进的性能。 分层自回归建模 ：Moshi 使用 RQ-Transformer（Residual Quantizer Transformer），将音频令牌分解为多个层次，并通过分层自回归建模生成音频。具体来说，模型先使用较大的 Temporal Transformer 处理时间序列，然后用较小的 Depth Transformer 处理每个时间步的多个子序列。这种设计极大地提高了生成长音频序列时的效率。 多模态序列生成 ：模型同时生成多个序列（包括文本、语义令牌、音频令牌），并通过内心独白机制确保它们在时间上精确对齐。每个时间步生成的内容不仅包含当前的语音，还包含相应的文本前缀，使得生成的语音内容更加符合语义逻辑。 5. “内部独白”机制 Moshi 的“内部独白”（Inner Monologue）机制是其语音生成的关键创新之一。通过该机制，Moshi 在生成音频之前，先预测出对应的 时间对齐的文本令牌 ，然后再生成音频。这不仅提高了生成语音的语言一致性，还能够支持实时的语音识别（ASR）和文本到语音（TTS）转换。 “内部独白”机制的特点： 文本与音频对齐生成 ：Moshi 通过首先预测文本，再生成音频，使得其生成的语音在语法和内容上更加精确和流畅。 延迟机制 ：通过引入文本和音频之间的延迟，Moshi 可以分别执行 ASR 和 TTS 任务。例如，若文本生成在前，音频生成在后，模型即为 TTS 模式；反之，则为 ASR 模式。Moshi 能够无缝地在这两种模式之间切换，确保模型既能生成语音，又能识别语音。 6. 多流建模 Moshi 的架构允许同时处理多个音频流，既可以监听用户的语音，又可以生成系统自己的语音。在对话过程中，Moshi 可以动态处理音频的重叠部分（如打断、交错讲话），无需预先明确的讲话者回合划分。这种技术使得对话更加自然。 语义和声学令牌的同步生成 ：Moshi 采用了并行的语义和音频令牌生成机制，并通过引入时间延迟来优化这些令牌之间的依赖关系。通过精确建模用户和系统的音频流，Moshi 能够灵活应对复杂的对话场景。 双流音频处理 ：Moshi 同时处理用户和系统的语音流，通过并行建模两个自回归音频流，实现全双工对话。这种设计使得模型可以应对自然对话中的重叠语音和打断。 语义和音频的延迟对齐 ：通过引入语义令牌和音频令牌之间的延迟，确保生成的语音内容既连贯又高效。延迟可以是 1 到 2 帧，具体视对话动态情况而定。 7.模型训练与微调 大规模预训练 ：Moshi 的文本语言模型（Helium）通过在超过 2.1 万亿个英语标记上进行预训练，具备了丰富的语言理解和生成能力。模型通过大规模文本和语音数据的训练，能够处理多种复杂的对话场景。 无监督和有监督的多阶段训练 ：Moshi 首先在大规模的无监督语音数据上进行预训练，然后在包含自然对话的多流数据上进行后期训练，最后通过指令微调（Instruction Fine-tuning），使其在实际对话中表现更佳。 Helium 预训练 ：首先在大规模文本数据集上预训练 Helium 文本语言模型，以提升其语言理解和推理能力。 Moshi 预训练 ：在未标注的音频数据集上训练多流音频模型，使其学会处理语音生成和语义理解。 多流微调 ：使用 Fisher 数据集（包含双通道语音对话数据）微调模型，提升其处理多流语音输入的能力。 指令微调 ：最后使用生成的指令对话数据进行微调，增强模型在自然对话场景中的表现。 数据增强 ：在训练过程中，Moshi 通过数据增强技术，如添加背景噪音、模拟用户回声等，使模型能够在不同的语音环境中表现稳定，增强了其鲁棒性。 性能评估 1. 语音生成的质量和一致性 ： 语音清晰度 ：Moshi 在生成语音时的清晰度表现优异，实验显示它能够生成高质量且易于理解的语音。它在生成的过程中，能够保持语音的连贯性，尤其是在长时间对话中，这对复杂语境下的对话模型是一个重要的性能指标。 语音的自然性和一致性 ：通过使用 Mimi 神经音频编解码器，Moshi 可以生成高保真度的语音，保持系统语音的一致性。此外，模型还能够根据不同的对话上下文生成合适的情感语调，提高了用户体验的自然度。 2. 实时响应性能 ： 低延迟 ：Moshi 的延迟时间理论上为160毫秒，实际测试中约为200毫秒。这意味着 Moshi 可以接近实时地响应用户的输入，显著提高了交互的流畅度和用户的对话体验。 全双工通信能力 ：Moshi 在测试中展现了它同时接收和生成语音的能力。这种全双工的特性使它能够处理对话中的重叠语音和打断，表现出接近人类自然对话的响应速度。 3. 语音识别与对话理解 ： 自动语音识别（ASR） ：通过内在独白方法（Inner Monologue Method），Moshi 结合了文本和语音流，显著提升了语音识别的准确性。模型不仅能够捕捉用户的语音输入，还能通过先生成文本预测来增强系统的响应准确度。 对话理解与推理能力 ：Moshi 使用 Helium 语言模型进行文本理解和推理，这使其在处理复杂问题、开放式对话和知识问答方面表现出色。实验结果表明，Moshi 能够有效地理解上下文，并提供合理的回答。 4. 多流语音处理的鲁棒性 ： 重叠语音处理 ：Moshi 在评估中能够处理复杂的对话场景，例如多个语音流的重叠对话。这对于实际应用场景中的多任务处理非常重要，因为自然对话中往往存在打断和重叠讲话的情况。 多语境对话处理 ：Moshi 经过多流数据的训练，能够在不同的对话情境下保持良好的表现，无论是单一用户的语音流，还是多个用户同时参与的对话。 5. 问答和知识获取 ： Moshi 在问答和知识获取任务中的表现优于当前其他语音对话系统。通过强大的文本理解能力和实时语音生成功能，Moshi 可以处理多轮问答，并准确地提取和回应用户的问题。 语言推理与常识问答 ：模型能够应对复杂的推理任务，并在自然语言处理（NLP）中的各类标准评测中表现出色，如常识问答、阅读理解和开放式问题回答等。 6. 语音情感和个性化生成 ： 情感语音生成 ：Moshi 在评估中展示了它生成情感化语音的能力。它能够根据对话的上下文生成带有不同情感的语音输出，如愤怒、快乐或悲伤等情感表达。 个性化的语音风格 ：通过训练过程中的指令微调（Instruction Fine-tuning），Moshi 可以根据用户要求生成不同风格或特定角色的语音。这种个性化能力使它在特定对话场景下的表现更加多样化。 7. 安全性与可靠性 ： 安全对话评估 ：在处理包含敏感或不合适内容的对话时，Moshi 展现了良好的安全性。它能够有效识别并避免生成不适合的内容，确保对话的安全性和道德性。 鲁棒性与噪声环境适应 ：在有噪声和复杂环境下的评估中，Moshi 表现出良好的鲁棒性。通过数据增强技术（如噪声添加和回声处理），模型能够应对不同的语音环境，保证在噪声环境下的高质量输出。 8. 综合测试结果 ： Moshi 的综合性能测试显示，它在语音生成、对话理解、实时响应和复杂对话处理等方面都取得了领先的成绩。尤其是在处理重叠对话、语音打断和情感生成方面，Moshi 的表现远超传统对话系统。 技术报告： https://kyutai.org/Moshi.pdf GitHub： https://github.com/kyutai-labs/moshi 模型下载： https://huggingface.co/collections/kyutai/moshi-v01-release-66eaeaf3302bef6bd9ad7acd 在线体验： https://moshi.chat/ 之前报道 https://xiaohu.ai/p/10838

Menu

分类目录

Moshi：实时语音到语音生成 Transformer 开源模型 160毫秒低延迟支持随时打断和情感表达

Related Posts

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM) 让模型更像人类思考

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

Fireworks AI新功能能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

Anthropic 公布了一种全新的 AI 越狱技术可以轻松破解所有前沿模型

INFP：基于音频驱动的双人对话中的互动头像生成能自动区分谁在说话，谁在听

Recommendeds

Prompt 学习地图 28 | 理论&实践 – 让模型自己评价提示词的设计缺陷，提出优化方案

Prompt 学习地图 06 | 编写清晰地说明 – 指定所需的格式/长度

Diffutoon：将任何真实感视频直接渲染为高清动漫风格并可通过文字进行编辑

Paper Piano 纸钢琴：通过摄像头将任何一张纸变成一架钢琴

从基础到实操 11 个人工智能顶级免费课程资源

Muse Pro 是一款融合AI专为iPad设计的实时画图应用

教程：使用Runway Gen-3 将真人视频与AI生成的视觉特效相结合

NeuralGCM：Google开发的结合AI技术和传统大气环流模型的天气预测模拟系统

使用 YOLOv 11 模型实现实时手语检测可同时识别多个手语手势

无需专业技能从文本生成高质量可编辑的矢量图形和动画

Welcome Back!

Retrieve your password

Add New Playlist

Are you sure want to unlock this post?

Are you sure want to cancel subscription?

Menu

分类目录

Moshi：实时语音到语音生成 Transformer 开源模型 160毫秒低延迟 支持随时打断和情感表达

Support authors and subscribe to content

加入会员

Related Posts

Recommendeds

Welcome Back!

Retrieve your password

Add New Playlist

Are you sure want to unlock this post?

Are you sure want to cancel subscription?

Moshi：实时语音到语音生成 Transformer 开源模型 160毫秒低延迟支持随时打断和情感表达