Hertz-dev：首个会话音频开源模型全双工实时语音交互 120毫秒超低延迟

Hertz-dev 是由 Standard Intelligence 公司开发的首个会话音频开源模型。hertz-dev 是一个 全双工 、 仅支持音频 的 Transformer 基础模型。 它的主要功能是用于生成对话音频，也就是模拟人类对话的语音生成。支持 全双工音频 ，它可以同时接收和生成音频，就像电话或实时对话一样，不需要等待说完一句话才能回复。 hertz-dev 拥有85亿参数，基于2千万小时的高质量音频数据训练，支持单声道和全双工生成选项。模型因使用了真实世界会话音频的超大数据集，能表现人类语音特征，如停顿和情感语调。 “Hertz-dev” 具有 高精度 和 低延迟 的特点，可以快速响应，并且生成的音频质量高，听起来更自然。这种特性让它特别适合用在实时的语音互动中，比如虚拟客服、语音助手等需要即时反应的场景。 目前正在训练 Hertz 的缩放 70B 参数版本，并计划扩展更多模态，以支持更广泛的应用。 [video width="1280" height="720" mp4="https://img.xiaohu.ai/2024/11/twittervid.com_si_pbc_fb0105.mp4"][/video] 主要特点： 实时对话 ：支持双向语音交流， 不需要等对方讲完 ，可以实现流畅的对话，适合虚拟助手和语音客服。 高效音频压缩 ：用一种特别的编码方式把语音压缩得很小，但依然保持高音质，占用带宽少，音质好。 长对话生成 ： 可以理解并生成长时间的对话内容 ，适合需要长时间互动的场景，比如虚拟主持人。 低延迟 ：生成语音速度很快， 只有 120 毫秒延迟 ，比现有的公开模型低 2 倍，更接近实时的人类互动，几乎可以实现实时互动。 易于扩展和自定义 ：作为开源模型，开发者可以下载并根据需求微调，用于各种语音生成任务。 技术方法 端到端音频生成 ： Hertz-dev 采用了端到端架构，可以直接生成音频，不需要传统的语义编码器和解码器。它直接处理原始音频数据，确保生成的语音流畅自然。 跨模态学习 ： 该模型利用跨模态学习技术，将文本和音频结合在一起进行训练，使其在生成对话内容时能够理解语境。这一方法使模型更好地适应自然对话。 低延迟优化 ： 通过优化模型结构和处理流程，Hertz-dev 在音频生成时实现了低延迟，理论延迟为 65 毫秒，实际延迟约为 120 毫秒。这一技术确保了它适用于实时语音互动。 核心组件 Hertz-codec （音频编码器）： 这是一个卷积音频自动编码器，将单声道 16kHz 的语音压缩成 8 Hz 的潜在表示，数据速率仅为 1kbps。相比其他编码器，它在更低的比特率下仍能保持高音质。 作用 ：用于压缩和解压缩音频数据，以节省带宽并提高处理效率。 Hertz-vae （音频解码器）： 这是一个 18 亿参数的 transformer 解码器，支持长达 17 分钟的上下文，能够在长对话中保持语境一致性。 作用 ：在生成对话音频时预测下一个音频帧，从而生成连贯的长段音频。 Hertz-dev 主模型 （主生成模型）： 拥有 66 亿参数的 transformer 堆栈模型，部分参数来自预训练的语言模型，经过 2000 万小时音频训练，具备丰富的语音生成和理解能力。 作用 ：这是 Hertz-dev 的核心生成引擎，负责生成自然的对话音频，提供高质量的实时语音输出。 GitHub： https://github.com/Standard-Intelligence/hertz-dev 官方介绍： https://si.inc/hertz-dev/

Menu

分类目录

Hertz-dev：首个会话音频开源模型全双工实时语音交互 120毫秒超低延迟

Related Posts

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM) 让模型更像人类思考

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

Fireworks AI新功能能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

Anthropic 公布了一种全新的 AI 越狱技术可以轻松破解所有前沿模型

INFP：基于音频驱动的双人对话中的互动头像生成能自动区分谁在说话，谁在听

Recommendeds

Flawless：利用AI创建与原版电影一样沉浸和真实的唇形同步配音版本

微软发布了10个全新的自主AI代理可以处理客户查询的“人工智能员工”

Hotshot ACT-1：一个全新的文本转视频模型更贴近生活现实

Bolt․new：AI 帮你自动写代码自动运行并自动部署而且全部在浏览器中完成

TCAN：从视频中提取人物姿态动作转移给图片能让静态图片动起来

LTX Studio：一个由AI驱动的一键生成电影的制作平台

V-Express：根据单张个人照片生成视频并能通过多种信号控制视频内容

Vchitect 2.0：上海人工智能实验室开发的视频生成模型可生成5 到 20 秒的高清短视频

Android Studio 引入 Gemini 让Android 开发更快、更简单

使用 Vercel 和 Nextjs 技术开发一个 RAG（检索增强生成）系统

Welcome Back!

Retrieve your password

Add New Playlist

Are you sure want to unlock this post?

Are you sure want to cancel subscription?

Menu

分类目录

Hertz-dev：首个会话音频开源模型 全双工实时语音交互 120毫秒超低延迟

Support authors and subscribe to content

加入会员

Related Posts

Recommendeds

Welcome Back!

Retrieve your password

Add New Playlist

Are you sure want to unlock this post?

Are you sure want to cancel subscription?

Hertz-dev：首个会话音频开源模型全双工实时语音交互 120毫秒超低延迟