Mini-Omni 支持“边思考边说话” 具备端到端的实时语音输入和输出能力模型

Mini-Omni是一种多模态大型语言模型，具备端到端的实时语音输入和输出能力。与传统依赖于文本转语音（TTS）系统的模型不同，Mini-Omni能够同时处理语音输入和生成语音输出，完全消除了文本生成和语音合成之间的延迟问题。 Mini-Omni备实时语音输入和输出的能力，专为语音对话而设计。其关键特性在于支持“边思考边说话”，即在模型生成语音输出的同时进行思考和推理，提供流式音频输出，减少了语音生成的延迟。 它是第一个开源的、具备实时对话能力的多模态模型，能够理解语音、生成语音并在交互中保持实时响应。 Mini-Omni实现了模型的“ 边说边思考 ” 能力，是指模型在生成文本或音频时，同时进行思考和处理信息的能力。具体来说，在对话或生成内容时，传统模型通常是先完成全部计算或推理过程后，再一次性输出完整的结果（文本或语音）。然而，“边说边思考” 的模型能够在生成输出的同时，继续进行思考或计算，逐步输出内容，而不是等到思考完成后再给出结果。 这种能力的关键优势在于它可以 实时 地生成和处理信息，使对话更加流畅和自然。例如，在对话场景中，这种模型可以在用户提问时，开始生成部分答案，并随着处理更复杂的内容，继续完善答案，而不需要长时间等待计算完成。这种方式特别适用于需要实时交互的应用场景，如语音助手、聊天机器人或智能客服系统。 [video width="1906" height="1080" mp4="https://img.xiaohu.ai/2024/09/9月8日-1.mp4" preload="auto"][/video] Mini-Omni解决了什么问题？ 实时语音互动延迟问题 ：传统模型在生成语音时通常依赖于先生成文本再转为语音的两步过程，导致显著的延迟，影响用户体验。Mini-Omni通过并行生成技术，能够同时生成文本和语音，极大减少了响应时间，实现了真正的实时语音交互。 语音与文本推理能力的整合 ：现有的大语言模型大多在文本推理上表现出色，但在语音推理方面较为薄弱。Mini-Omni通过创新的训练方法和模型架构，保留了语言模型在文本推理方面的强大能力，并将这些能力扩展到语音处理和生成中。 降低模型的复杂性和资源需求 ：Mini-Omni通过“Any Model Can Talk”方法，简化了将语音能力集成到大型语言模型中的过程。这一方法需要的额外训练数据和模型调整较少，使得其他模型可以快速具备语音交互能力，减少了资源和时间消耗。 主要功能 特点： 实时语音输入输出 ： Mini-Omni可以同时处理语音输入和生成语音输出，实现了真正的端到端语音交互。这意味着用户可以与模型进行语音对话，模型能够立即回应，而不需要经过文本生成和转语音的延迟步骤。 边思考边说话： 该模型可以在生成语音的同时进行推理和思考，减少延迟，提升对话的流畅度。这意味着它可以在还没有完全计算出完整的答案时，边处理信息边输出语音。 支持持续的语音流输出，适合需要实时反馈的交互场景，如语音助手、智能客服等。 语音识别与生成 ： Mini-Omni具备自动语音识别（ASR）功能，能够将用户的语音输入转换为文本进行处理。 同时，它还具备语音生成能力，可以将文本或推理结果生成语音，直接与用户进行对话。 多模态理解与生成 ： Mini-Omni不仅支持语音，还支持文本等多模态输入。它能够在不同的模态之间进行转换，如通过语音生成文本、通过文本生成语音等。 并行生成技术 ： 通过并行生成技术，Mini-Omni可以同时生成文本和语音响应，大大减少了语音输出的延迟问题，保证了高效的实时对话能力。 “Any Model Can Talk”方法 ： 这一功能使得现有的大语言模型可以快速具备语音输入输出能力。通过最小的数据和架构调整，Mini-Omni为其他模型集成语音能力提供了一个简便的方案，帮助它们实现语音交互功能。 批处理并行推理 ： 为了进一步提升模型在语音推理任务中的表现，Mini-Omni采用了批处理并行推理方法，能够在生成语音的同时保持文本推理的复杂性和准确性。 VoiceAssistant-400K数据集支持 ： Mini-Omni使用了一个专门为语音助手设计的VoiceAssistant-400K数据集，优化了模型在语音助手场景下的表现。该数据集用于训练模型的语音问答和对话能力，使其在语音助手应用中具有较高的适应性。 Mini-Omni的技术方法 端到端语音生成架构 Mini-Omni采用了端到端的语音输入和输出架构，直接从语音输入到语音输出，避免了传统的语音转文本再生成语音的步骤，极大减少了延迟，提供了实时的语音对话功能。 边思考边说话 概念 ：在对话过程中，Mini-Omni 能够边进行推理边生成音频，这种“边思考边说话”的特性是通过延迟并行生成来实现的。 工作机制 ：模型在生成每一层音频 tokens 时，会使用延迟技术，先生成文本 tokens，再逐步生成音频 tokens。在生成第一层文本 tokens 后，音频编码器 SNAC 的多层代码簿（codebook）开始并行生成音频 tokens。这使得模型可以在短暂延迟的情况下生成高质量的音频。 技术优势 ：通过延迟并行生成，模型有效解决了同时生成文本和音频时的复杂性，同时确保了高质量音频输出。 并行生成技术 Mini-Omni通过并行生成策略，同时生成文本和语音响应，减少生成语音的时间，确保用户能够几乎即时获得反馈。并行生成还可以灵活处理不同模态的任务。 核心思想 ：Mini-Omni 引入了文本引导的并行生成策略，在生成音频的同时生成文本，利用文本推理能力来提升音频生成的准确性。 实现方式 ：该模型假设文本具有较高的信息密度，因此通过先生成文本再生成音频的方式，实现了同时输出文本和音频。在生成音频之前，模型会根据文本生成部分先行生成对应的文本 tokens，然后再生成音频 tokens。这减少了音频生成的等待时间，实现了语音和文本的同步输出。 技术优势 ：并行生成策略解决了传统方法中先生成文本再生成音频所带来的延迟问题，大大加快了语音生成速度，提升了实时性。 批处理并行推理 核心思想 ：批量并行生成技术用于提升模型在处理音频和文本推理任务时的效率和准确性。 实现方式 ：该技术通过对模型的输入进行批量处理，每个输入样本同时需要生成文本和音频。在推理过程中，模型不仅生成文本输出，还在此基础上生成对应的音频输出。为了增强模型在生成音频时的推理能力，采用了两个并行的样本生成策略：一个生成文本，另一个生成音频。在这个过程中，文本输出被嵌入到音频生成样本中，形成更强的推理能力。 技术优势 ：该方法有效地利用了模型在文本推理中的强大能力，并将其转移到音频生成中，极大地提高了模型在处理音频推理任务时的表现，且对计算资源的需求较低。 SNAC 音频编码器 核心技术 ：Mini-Omni 采用了 SNAC 音频编码器，它是一种高效的音乐级别编码器，具备 8 层代码簿结构，可以在短时间内处理大量音频 tokens。 工作原理 ：SNAC 编码器对音频进行高效编码，将音频信号离散化为多个层次的代码簿。这种编码方式极大减少了模型在处理音频时的复杂性，同时保证了生成的音频具有高保真度。 技术优势 ：SNAC 编码器通过其多层结构，使得模型在生成高质量音频时保持高效，避免了低码率编码器通常会引起的音频质量下降问题。 “Any Model Can Talk”方法 概念 ：这是一个创新的训练和推理方法，旨在帮助其他大语言模型快速适应语音输出功能。 实现方式 ：该方法分为三个阶段： 模态对齐 ：首先对模型的文本和音频进行对齐，确保模型能够理解并生成语音。在这一阶段，使用语音识别和语音合成数据对模型进行初步训练，提升其语音处理能力。 适应性训练 ：一旦音频和文本模态对齐，模型开始专注于在音频输入的情况下生成文本，音频输出则通过简单的文本到音频合成来实现。这个阶段使用了语音问答（Speech QA）和文本问答（Text QA）的数据进行训练。 多模态微调 ：最后阶段，解冻模型的所有权重，使用多模态数据进行全面的微调，以确保模型在多模态交互中保持高效。 技术优势 ：这一方法极大减少了模型的训练成本，使得其他语言模型可以通过少量额外数据快速获得语音交互功能，而无需对模型架构进行大幅修改。 文本指令延迟并行生成 采用文本指令延迟并行生成策略，模型先生成文本，再根据文本生成语音，利用文本推理的高效性减少语音生成的复杂性，同时保持高质量的语音输出。 音频离散化与编码 Mini-Omni使用音频离散化技术，将语音信号转换为离散的音频标记，以便在语言模型中进行推理处理。采用SNAC编码器确保高质量的语音生成。 音频编码 ：Mini-Omni 使用 Whisper 等先进的语音编码技术，将音频输入离散化为 tokens，供模型处理。 音频解码 ：在生成音频时，模型通过多层代码簿技术对音频 tokens 进行解码，确保生成的音频质量高、延迟低。 三阶段训练框架 Mini-Omni的训练过程分为三个阶段： 模态扩展阶段 ：训练模型的语音识别和生成能力。 适配训练阶段 ：使用语音识别和文本生成任务数据，进一步优化模型的语音理解和文本生成能力。 全面微调阶段 ：对模型进行多模态微调，优化语音输出质量，并实现语音和文本的灵活切换。 VoiceAssistant-400K 数据集 概述 ：为了优化模型的语音输出能力，Mini-Omni 团队创建了一个专门的数据集 VoiceAssistant-400K。该数据集由 GPT-4o 合成，包含 400,000 条专门用于训练语音助手的条目，确保模型在生成语音助手式对话时能够生成自然、流畅的语音输出。 1. 数据来源与生成方法 生成方式 ：VoiceAssistant-400K 数据集由 GPT-4o 模型生成。GPT-4o 生成了超过 40 万条用于语音助手训练的监督数据（Supervised Fine-Tuning, SFT）。 数据内容 ：数据集包括了多种语音助手场景下的语音问答对话。每个条目不仅包括了文本形式的问答，还包含与之对应的音频内容，确保模型能够在语音输入和输出的场景下进行有效的推理和生成。 目的 ：主要用于训练 Mini-Omni 的语音助手功能，帮助模型在生成语音时避免产生代码符号和冗长的文本，确保生成的语音输出自然、流畅。 2. 数据集的规模 数据量 ：VoiceAssistant-400K 数据集包含超过 400,000 条语音对话数据。这些数据量级足以覆盖各种常见的语音助手场景，确保模型经过训练后能在多种情境下进行高效的语音交互。 多模态数据 ：数据集不仅涵盖了文本和语音的对应关系，还包括了多模态的输入和输出，保证了模型在面对文本或语音输入时，都能提供相应的语音输出。 3. 应用场景 语音助手优化 ：该数据集的设计初衷是为语音助手进行微调，训练出自然、连贯的语音对话模型，使其能够处理用户的问题、指令并生成语音反馈。 其他应用 ：除了用于语音助手，该数据集还可应用于其他需要语音生成和理解的场景，如智能客服系统、实时语音翻译系统等。 4. 技术特点 监督微调（SFT） ：VoiceAssistant-400K 数据集是专门用于监督微调的，确保模型可以有效学习语音助手式的对话模式。通过监督学习，模型不仅可以提升语音理解能力，还可以通过数据中的问答对进一步强化推理和应答能力。 避免生成冗余信息 ：在生成过程中，数据集特别优化了模型在生成语音输出时不包含代码符号或过长的文本，确保对话简洁、精准，贴近真实的语音助手体验。 5. 数据集的贡献 加速语音助手模型训练 ：通过该数据集，Mini-Omni 模型能够更快、更精准地学习到语音助手所需的技能，从而减少了模型的训练时间并提升了语音交互的自然度。 提升多模态模型的实用性 ：VoiceAssistant-400K 不仅为语音助手提供了强大的数据支持，也为多模态模型（包括文本、音频输入与输出）提供了有效的训练数据，使其在多模态任务中的表现更加优异。 实验结果 Mini-Omni 的实验结果主要展示了该模型在多模态任务中的性能，尤其是在语音识别、语音生成和语音问答等核心任务中的表现。以下是实验结果的详细介绍： Mini-Omni的真实流媒体输出示例

语音识别（Automatic Speech Recognition, ASR）结果 Mini-Omni 在多个语音识别基准测试集上的表现评估了其对音频输入的理解能力。实验结果如下： 测试集 ：LibriSpeech 数据集，分为四个部分： test-clean , test-other , dev-clean , 和 dev-other 。 评估指标 ：错误率（WER, Word Error Rate）。 方法 test-clean test-other dev-clean dev-other wav2vec2-base 6.0 13.4 - - VITA 8.14 18.41 7.57 16.57 whisper-small 3.4 7.6 - - Mini-Omni 4.5 9.7 4.6 9.2 结论 ：虽然 Mini-Omni 的语音识别性能稍低于 Whisper-small，但与其他方法相比，其表现仍然优秀，特别是在 test-clean 和 dev-clean 数据集上表现接近 Whisper-small，显示出较高的语音理解能力。 2. 语音问答（Speech QA）和文本问答（Text QA）结果 Mini-Omni 的主要创新点之一在于其在多模态任务中的表现，特别是语音问答（Speech QA）和文本问答（Text QA）任务。以下是模型在这两种任务中的性能： 任务类型 ： Text QA ：模型根据文本输入生成文本回答。 Speech QA ：模型根据语音输入生成语音回答，使用并行生成策略实现实时响应。 性能评估 ：Mini-Omni 在处理 Text QA 和 Speech QA 任务时表现出了高效的推理能力，尤其是在使用批量并行生成技术时，语音输出的推理性能得到了显著提升。 3. 批量并行生成策略的效果 Mini-Omni 引入的批量并行生成（Batch Parallel Decoding）策略，通过同时生成文本和音频的方式提高了模型的推理效率。实验结果表明，这一策略在以下方面带来了改进： 推理能力提升 ：批量并行生成使得模型的推理能力从文本推理扩展到语音生成，显著提升了模型在语音问答任务中的表现。 音频质量提升 ：通过并行生成技术，模型能够生成更高质量的音频，尤其是在流式输出中减少了延迟，提升了用户体验。 4. 语音生成质量评估 Mini-Omni 的语音生成质量与传统的文本转语音（TTS）系统相比具有相似的高水平。在实验中，采用了以下的质量评估标准： 音频清晰度 ：通过 SNAC 音频编码器，生成的音频质量与常见的 TTS 系统持平。 延迟测试 ：尽管使用 Gradio 进行演示时，可能会因为网络原因导致延迟稍长，但整体生成的音频流畅且质量较高。 5. 性能总结 Mini-Omni 通过对多个任务的测试，展现出强大的语音和文本处理能力，特别是在多模态对话任务中，其边思考边生成的特性确保了实时交互的自然流畅性。 总结 语音识别能力 ：Mini-Omni 在语音识别方面的表现接近主流的 Whisper-small 模型，表明其具备较强的语音理解能力。 语音生成能力 ：通过批量并行生成和 SNAC 编码器，Mini-Omni 能够高效生成高质量的语音，并且大幅降低了生成的延迟。 推理性能 ：批量并行生成策略显著提升了模型的推理效率，特别是在多模态任务中的表现，使其能够在语音问答和文本问答中保持一致的高效推理能力。 主要贡献： 端到端语音生成 ：Mini-Omni通过并行生成策略实现了语音与文本的实时交互，减少了生成延迟，使语音交互更为自然流畅。 “Any Model Can Talk”方法 ：为其他语言模型提供了快速扩展到语音交互领域的途径，只需少量数据和最小的模型修改。 高质量的语音生成与多模态推理 ：Mini-Omni不仅在语音识别（ASR）和语音生成（TTS）任务中表现优异，在多模态任务（如TextQA、SpeechQA）上也具备强大的推理能力。 🤗 Hugging Face | 📖 Github | 📑 Technical report

Menu

分类目录

Mini-Omni 支持“边思考边说话” 具备端到端的实时语音输入和输出能力模型

Related Posts

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM) 让模型更像人类思考

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

Fireworks AI新功能能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

Anthropic 公布了一种全新的 AI 越狱技术可以轻松破解所有前沿模型

INFP：基于音频驱动的双人对话中的互动头像生成能自动区分谁在说话，谁在听

Recommendeds

DeepFaceLive：可以在直播过程和视频通话时进行实时换脸的工具

Amazon Q：为企业和开发人员提供支持的生成式 AI 助手

One-Click Creative Template：创意模型用一张卡通图片总结4张真实人物照片

Spotify 推出AI 播放列表功能输入提示即可自动生成播放列表

Anthropic 推出企业版Claude 500K上下文可以将 GitHub 仓库与 Claude 集成

Hugging Face发布了一个完全开源的端侧模型SmolLM 可在手机上运行

Infini-attention：通过压缩记忆技术使模型能够处理无限长的输入

Claude 3全系支持函数调用工具Tool use 可与外部系统进行交互

VideoSwap：替换视频中的人物、物体同时保持视频背景不变

StoryMaker：一致性角色图像解决方案能同时保持面部、服装、发型和身体姿态一致性

Welcome Back!

Retrieve your password

Add New Playlist

Are you sure want to unlock this post?

Are you sure want to cancel subscription?

Menu

分类目录

Mini-Omni 支持“边思考边说话” 具备端到端的实时语音输入和输出能力模型

Support authors and subscribe to content

加入会员

Related Posts

Recommendeds

Welcome Back!

Retrieve your password

Add New Playlist

Are you sure want to unlock this post?

Are you sure want to cancel subscription?