Menu

  • Home
  • Trending
  • Recommended
  • Latest

分类目录

  • AI 工具
  • AI新势力
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
XiaoHu.AI学院
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
No Result
View All Result
  • Login
XiaoHu.AI学院
No Result
View All Result
Home 开源项目案例库 AI 项目

Fish Audio 发布语音到语音模型Fish Agent V0.1 3B 实现“即时”语音克隆

by 小互
2024年11月5日
in AI 项目, XiaoHu.AI日报
0 0
0
Fish Audio 发布语音到语音模型Fish Agent V0.1 3B 实现“即时”语音克隆
0
SHARES
590
VIEWS
Share on FacebookShare on Twitter

Fish Audio 发布高级语音处理模型Fish Agent V0.1 3B,它是一个语音到语音模型,它可以高效、精确地生成和处理语音,尤其适合模拟或克隆不同的声音。

该模型是在 Qwen-2.5-3B-Instruct 的基础上继续预训练完成的,涵盖了 2000 亿语音和文本令牌。

  • 端到端架构:采用无语义层的真正端到端(E2E)架构。
  • 零样本语音克隆:支持无需训练即可实现语音克隆。
  • 精简的 3B 参数:使用 30 亿参数,便于开发。
  • 支持文本和音频输入:灵活的多输入方式。
  • 超快响应时间:仅需 200 毫秒的文本到音频转换时间(TTFA)。
twittervid.com_FishAudio_829c1b

Fish Agent V0.1 3B 的一大特点是无语义令牌架构。这意味着它不像传统模型那样需要先把语音转换成复杂的语义编码(如 Whisper 和 CosyVoice 使用的编码),而是直接在声音层面上处理和生成语音。这种直接处理方式让模型的反应速度更快,结构更简单,效率也更高。

Fish Agent V0.1 3B 可以快速、自然地生成高质量语音,同时减少了传统模型的复杂步骤,从而实现“即时”语音克隆和文本到语音转换。这让它更适合需要实时语音生成的应用,比如语音助手、自动客服、以及各种需要快速语音反馈的场景。

支持的语言及数据规模

  • 英语 (en): 约 30 万小时
  • 中文 (zh): 约 30 万小时
  • 德语 (de), 日语 (ja), 法语 (fr), 西班牙语 (es), 韩语 (ko), 阿拉伯语 (ar): 各约 2 万小时

关键特性

  1. 语音到语音生成:该模型能够捕捉并生成自然环境音频,适用于高精度语音生成任务,提供更真实的音频表现。
  2. 文本到语音转换:Fish Agent V0.1 3B 也是一款先进的 TTS 模型,支持将文本内容转换为高质量的语音输出。
  3. 多语言支持:该模型支持英语、中文、德语、日语、法语、西班牙语、韩语和阿拉伯语等多种语言,具备广泛的应用潜力。
  4. 大规模训练数据:模型基于约 70 万小时的多语言音频数据训练,使其在处理多种语言和语境时具备出色的适应性。
  5. 创新架构:Fish Agent V0.1 3B 采用了无语义令牌的架构,不需要传统的语义编码/解码器。这种设计提升了处理效率,同时可以减少对额外模块的依赖,使生成效果更稳定和高效。

同时Fish Audio 发布了Fish Speech 1.4 技术报告。

Fish-Speech 提出了一个具有多语言和多情感稳定性的创新 TTS 解决方案,通过快-慢双重自回归架构结合非字母-音素(non-G2P)架构,实现了跨语言和情感多样的高质量语音合成。

Fish Speech:完美支持中英日语言的开源TTS模型 接近人类水平

GitHub: http://github.com/fishaudio/fish-speech
Fish Agent Demo: http://huggingface.co/spaces/fishaudio/fish-agent
模型下载: http://huggingface.co/fishaudio/fish-agent-v0.1-3b
技术报告: http://arxiv.org/abs/2411.01156

目前,Fish Agent 的初步演示版本可以在 fish.audio/demo/live 上体验。

Related Posts

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM)  让模型更像人类思考
XiaoHu.AI日报

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM) 让模型更像人类思考

2024年12月25日
483
阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型
XiaoHu.AI日报

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

2024年12月25日
337
Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本
AI 工具

Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

2024年12月24日
449
Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音
XiaoHu.AI日报

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

2024年12月24日
278
Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型
AI 论文

Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型

2024年12月23日
616
INFP:基于音频驱动的双人对话中的互动头像生成  能自动区分谁在说话,谁在听
AI 项目

INFP:基于音频驱动的双人对话中的互动头像生成 能自动区分谁在说话,谁在听

2024年12月22日
428

Recommendeds

全球首款集成GPT-4o 的智能眼镜发布 支持视觉能力和实时问答

全球首款集成GPT-4o 的智能眼镜发布 支持视觉能力和实时问答

1.3k VIEWS
2024年6月30日
苹果发布 Final Cut Pro 11 新增多项AI功能 自动抠图和自动生成字幕

苹果发布 Final Cut Pro 11 新增多项AI功能 自动抠图和自动生成字幕

277 VIEWS
2024年11月14日
Eye Contact:目光矫正 API 自动调整视频、直播中眼睛的视线方向

Eye Contact:目光矫正 API 自动调整视频、直播中眼睛的视线方向

412 VIEWS
2024年10月17日
使用Midjourney的角色引用和区域变化进行面部交换的教程

使用Midjourney的角色引用和区域变化进行面部交换的教程

63 VIEWS
2024年3月23日
VASA-1:一张静态图像 + 一段语音生成逼真的对话面部视频

VASA-1:一张静态图像 + 一段语音生成逼真的对话面部视频

924 VIEWS
2024年4月18日
Midjourney“角色参考(Character Reference)”教程

Midjourney“角色参考(Character Reference)”教程

51 VIEWS
2024年3月20日
InstanceDiffusion:允许用户以前所未有的精度控制图片中每个细节

InstanceDiffusion:允许用户以前所未有的精度控制图片中每个细节

67 VIEWS
2024年3月7日
EvTexture:一种提升视频分辨率的新方法 解决了视频细节模糊和抖动问题

EvTexture:一种提升视频分辨率的新方法 解决了视频细节模糊和抖动问题

301 VIEWS
2024年6月24日
PROTEUS:斯坦福大学开发的 通过单张图片让人物进行实时唱歌和说话的AI

PROTEUS:斯坦福大学开发的 通过单张图片让人物进行实时唱歌和说话的AI

580 VIEWS
2024年6月14日
提高Transformer模型处理复杂算术任务的能力的方法

提高Transformer模型处理复杂算术任务的能力的方法

39 VIEWS
2024年6月1日

Copyright (c) 2024 by Xiaohu.AI.

  • About
  • Contact

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In

Add New Playlist

No Result
View All Result
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
  • Login

© 2024 Xiaohu.AI

Are you sure want to unlock this post?
Unlock left : 0
Are you sure want to cancel subscription?
转到手机版