Menu

  • Home
  • Trending
  • Recommended
  • Latest

分类目录

  • AI 工具
  • AI新势力
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
XiaoHu.AI学院
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
No Result
View All Result
  • Login
XiaoHu.AI学院
No Result
View All Result
Home 开源项目案例库 AI 项目

Fish Audio 发布语音到语音模型Fish Agent V0.1 3B 实现“即时”语音克隆

by 小互
2024年11月5日
in AI 项目, XiaoHu.AI日报
0 0
0
Fish Audio 发布语音到语音模型Fish Agent V0.1 3B 实现“即时”语音克隆
0
SHARES
590
VIEWS
Share on FacebookShare on Twitter

Fish Audio 发布高级语音处理模型Fish Agent V0.1 3B,它是一个语音到语音模型,它可以高效、精确地生成和处理语音,尤其适合模拟或克隆不同的声音。

该模型是在 Qwen-2.5-3B-Instruct 的基础上继续预训练完成的,涵盖了 2000 亿语音和文本令牌。

  • 端到端架构:采用无语义层的真正端到端(E2E)架构。
  • 零样本语音克隆:支持无需训练即可实现语音克隆。
  • 精简的 3B 参数:使用 30 亿参数,便于开发。
  • 支持文本和音频输入:灵活的多输入方式。
  • 超快响应时间:仅需 200 毫秒的文本到音频转换时间(TTFA)。
twittervid.com_FishAudio_829c1b

Fish Agent V0.1 3B 的一大特点是无语义令牌架构。这意味着它不像传统模型那样需要先把语音转换成复杂的语义编码(如 Whisper 和 CosyVoice 使用的编码),而是直接在声音层面上处理和生成语音。这种直接处理方式让模型的反应速度更快,结构更简单,效率也更高。

Fish Agent V0.1 3B 可以快速、自然地生成高质量语音,同时减少了传统模型的复杂步骤,从而实现“即时”语音克隆和文本到语音转换。这让它更适合需要实时语音生成的应用,比如语音助手、自动客服、以及各种需要快速语音反馈的场景。

支持的语言及数据规模

  • 英语 (en): 约 30 万小时
  • 中文 (zh): 约 30 万小时
  • 德语 (de), 日语 (ja), 法语 (fr), 西班牙语 (es), 韩语 (ko), 阿拉伯语 (ar): 各约 2 万小时

关键特性

  1. 语音到语音生成:该模型能够捕捉并生成自然环境音频,适用于高精度语音生成任务,提供更真实的音频表现。
  2. 文本到语音转换:Fish Agent V0.1 3B 也是一款先进的 TTS 模型,支持将文本内容转换为高质量的语音输出。
  3. 多语言支持:该模型支持英语、中文、德语、日语、法语、西班牙语、韩语和阿拉伯语等多种语言,具备广泛的应用潜力。
  4. 大规模训练数据:模型基于约 70 万小时的多语言音频数据训练,使其在处理多种语言和语境时具备出色的适应性。
  5. 创新架构:Fish Agent V0.1 3B 采用了无语义令牌的架构,不需要传统的语义编码/解码器。这种设计提升了处理效率,同时可以减少对额外模块的依赖,使生成效果更稳定和高效。

同时Fish Audio 发布了Fish Speech 1.4 技术报告。

Fish-Speech 提出了一个具有多语言和多情感稳定性的创新 TTS 解决方案,通过快-慢双重自回归架构结合非字母-音素(non-G2P)架构,实现了跨语言和情感多样的高质量语音合成。

Fish Speech:完美支持中英日语言的开源TTS模型 接近人类水平

GitHub: http://github.com/fishaudio/fish-speech
Fish Agent Demo: http://huggingface.co/spaces/fishaudio/fish-agent
模型下载: http://huggingface.co/fishaudio/fish-agent-v0.1-3b
技术报告: http://arxiv.org/abs/2411.01156

目前,Fish Agent 的初步演示版本可以在 fish.audio/demo/live 上体验。

Related Posts

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM)  让模型更像人类思考
XiaoHu.AI日报

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM) 让模型更像人类思考

2024年12月25日
483
阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型
XiaoHu.AI日报

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

2024年12月25日
338
Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本
AI 工具

Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

2024年12月24日
450
Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音
XiaoHu.AI日报

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

2024年12月24日
279
Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型
AI 论文

Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型

2024年12月23日
617
INFP:基于音频驱动的双人对话中的互动头像生成  能自动区分谁在说话,谁在听
AI 项目

INFP:基于音频驱动的双人对话中的互动头像生成 能自动区分谁在说话,谁在听

2024年12月22日
429

Recommendeds

Apple Intelligence背后基础模型:一个约30亿参数的设备端模型和一个服务器端大模型

Apple Intelligence背后基础模型:一个约30亿参数的设备端模型和一个服务器端大模型

284 VIEWS
2024年6月12日
特斯拉We Robot 发布会全纪录:完全无人驾驶出租车、Optimus 机器人、Robovan(机器人巴士)

特斯拉We Robot 发布会全纪录:完全无人驾驶出租车、Optimus 机器人、Robovan(机器人巴士)

306 VIEWS
2024年10月11日
Bolt․new:AI 帮你自动写代码 自动运行并自动部署 而且全部在浏览器中完成

Bolt․new:AI 帮你自动写代码 自动运行并自动部署 而且全部在浏览器中完成

1.2k VIEWS
2024年10月5日
Black Forest Labs 发布其最新的图像生成模型 FLUX1.1 [pro] 生成速度快6倍

Black Forest Labs 发布其最新的图像生成模型 FLUX1.1 [pro] 生成速度快6倍

222 VIEWS
2024年10月3日
Ultralight-Digital-Human :支持在移动设备上实时运行的超轻量级数字人模型

Ultralight-Digital-Human :支持在移动设备上实时运行的超轻量级数字人模型

803 VIEWS
2024年10月28日
OpenAI与视觉艺术家合作 展示Sora的无限创意能力

OpenAI与视觉艺术家合作 展示Sora的无限创意能力

40 VIEWS
2024年3月26日
Morph Studio:将Stability AI生成的视频片段编织成一部电影

Morph Studio:将Stability AI生成的视频片段编织成一部电影

97 VIEWS
2024年7月28日
PDF Guru Anki:一款以PDF为中心的多功能办公学习工具箱 十分强大

PDF Guru Anki:一款以PDF为中心的多功能办公学习工具箱 十分强大

370 VIEWS
2024年8月6日
全球首创桌面双轮足式 AI 机器人  接入ChatGPT 能跑、能看、能说、倒不了…

全球首创桌面双轮足式 AI 机器人 接入ChatGPT 能跑、能看、能说、倒不了…

424 VIEWS
2024年10月18日
阿里云发布 VideoLLaMA 2 视频语言模型 提升模型对视频、音频内容的理解能力

阿里云发布 VideoLLaMA 2 视频语言模型 提升模型对视频、音频内容的理解能力

400 VIEWS
2024年6月15日

Copyright (c) 2024 by Xiaohu.AI.

  • About
  • Contact

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In

Add New Playlist

No Result
View All Result
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
  • Login

© 2024 Xiaohu.AI

Are you sure want to unlock this post?
Unlock left : 0
Are you sure want to cancel subscription?
转到手机版