Menu

  • Home
  • Trending
  • Recommended
  • Latest

分类目录

  • AI 工具
  • AI新势力
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
XiaoHu.AI学院
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
No Result
View All Result
  • Login
XiaoHu.AI学院
No Result
View All Result
Home 开源项目案例库 AI 项目

Fish Audio 发布语音到语音模型Fish Agent V0.1 3B 实现“即时”语音克隆

by 小互
2024年11月5日
in AI 项目, XiaoHu.AI日报
0 0
0
Fish Audio 发布语音到语音模型Fish Agent V0.1 3B 实现“即时”语音克隆
0
SHARES
590
VIEWS
Share on FacebookShare on Twitter

Fish Audio 发布高级语音处理模型Fish Agent V0.1 3B,它是一个语音到语音模型,它可以高效、精确地生成和处理语音,尤其适合模拟或克隆不同的声音。

该模型是在 Qwen-2.5-3B-Instruct 的基础上继续预训练完成的,涵盖了 2000 亿语音和文本令牌。

  • 端到端架构:采用无语义层的真正端到端(E2E)架构。
  • 零样本语音克隆:支持无需训练即可实现语音克隆。
  • 精简的 3B 参数:使用 30 亿参数,便于开发。
  • 支持文本和音频输入:灵活的多输入方式。
  • 超快响应时间:仅需 200 毫秒的文本到音频转换时间(TTFA)。
twittervid.com_FishAudio_829c1b

Fish Agent V0.1 3B 的一大特点是无语义令牌架构。这意味着它不像传统模型那样需要先把语音转换成复杂的语义编码(如 Whisper 和 CosyVoice 使用的编码),而是直接在声音层面上处理和生成语音。这种直接处理方式让模型的反应速度更快,结构更简单,效率也更高。

Fish Agent V0.1 3B 可以快速、自然地生成高质量语音,同时减少了传统模型的复杂步骤,从而实现“即时”语音克隆和文本到语音转换。这让它更适合需要实时语音生成的应用,比如语音助手、自动客服、以及各种需要快速语音反馈的场景。

支持的语言及数据规模

  • 英语 (en): 约 30 万小时
  • 中文 (zh): 约 30 万小时
  • 德语 (de), 日语 (ja), 法语 (fr), 西班牙语 (es), 韩语 (ko), 阿拉伯语 (ar): 各约 2 万小时

关键特性

  1. 语音到语音生成:该模型能够捕捉并生成自然环境音频,适用于高精度语音生成任务,提供更真实的音频表现。
  2. 文本到语音转换:Fish Agent V0.1 3B 也是一款先进的 TTS 模型,支持将文本内容转换为高质量的语音输出。
  3. 多语言支持:该模型支持英语、中文、德语、日语、法语、西班牙语、韩语和阿拉伯语等多种语言,具备广泛的应用潜力。
  4. 大规模训练数据:模型基于约 70 万小时的多语言音频数据训练,使其在处理多种语言和语境时具备出色的适应性。
  5. 创新架构:Fish Agent V0.1 3B 采用了无语义令牌的架构,不需要传统的语义编码/解码器。这种设计提升了处理效率,同时可以减少对额外模块的依赖,使生成效果更稳定和高效。

同时Fish Audio 发布了Fish Speech 1.4 技术报告。

Fish-Speech 提出了一个具有多语言和多情感稳定性的创新 TTS 解决方案,通过快-慢双重自回归架构结合非字母-音素(non-G2P)架构,实现了跨语言和情感多样的高质量语音合成。

Fish Speech:完美支持中英日语言的开源TTS模型 接近人类水平

GitHub: http://github.com/fishaudio/fish-speech
Fish Agent Demo: http://huggingface.co/spaces/fishaudio/fish-agent
模型下载: http://huggingface.co/fishaudio/fish-agent-v0.1-3b
技术报告: http://arxiv.org/abs/2411.01156

目前,Fish Agent 的初步演示版本可以在 fish.audio/demo/live 上体验。

Related Posts

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM)  让模型更像人类思考
XiaoHu.AI日报

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM) 让模型更像人类思考

2024年12月25日
483
阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型
XiaoHu.AI日报

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

2024年12月25日
337
Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本
AI 工具

Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

2024年12月24日
449
Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音
XiaoHu.AI日报

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

2024年12月24日
278
Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型
AI 论文

Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型

2024年12月23日
616
INFP:基于音频驱动的双人对话中的互动头像生成  能自动区分谁在说话,谁在听
AI 项目

INFP:基于音频驱动的双人对话中的互动头像生成 能自动区分谁在说话,谁在听

2024年12月22日
428

Recommendeds

Deepgram Aura:低于250毫秒的 实时文本转语音API 可以实时互动

Deepgram Aura:低于250毫秒的 实时文本转语音API 可以实时互动

59 VIEWS
2024年3月13日
Meta AI 发布Orion AR眼镜 眼镜集成了能够感知周围环境的AI 目标是替代智能手机

Meta AI 发布Orion AR眼镜 眼镜集成了能够感知周围环境的AI 目标是替代智能手机

467 VIEWS
2024年9月26日
Midjourney不同相机角度的使用教程 提高图像摄影技巧

Midjourney不同相机角度的使用教程 提高图像摄影技巧

169 VIEWS
2024年5月1日
ELLA:使用LLM来增强扩散模型的语义对齐

ELLA:使用LLM来增强扩散模型的语义对齐

17 VIEWS
2024年3月11日
Anthropic 的研究人员发现了打开AI模型“黑盒子”的方法

Anthropic 的研究人员发现了打开AI模型“黑盒子”的方法

337 VIEWS
2024年5月22日
苹果发布多模态大语言模型MM1 并公布训练方法和技术细节

苹果发布多模态大语言模型MM1 并公布训练方法和技术细节

25 VIEWS
2024年3月17日
Thinking-Claude:让 Claude 实现类似OpenAI o1 模型一样的高级推理模式

Thinking-Claude:让 Claude 实现类似OpenAI o1 模型一样的高级推理模式

1.2k VIEWS
2024年11月14日
StoryDiffusion:可以创造漫画故事 实现连贯叙事的图像视频生成模型

StoryDiffusion:可以创造漫画故事 实现连贯叙事的图像视频生成模型

335 VIEWS
2024年5月4日
NotebookLlama:Meta 发布了一个通过Llama从 PDF 文件生成播客的引导式教程

NotebookLlama:Meta 发布了一个通过Llama从 PDF 文件生成播客的引导式教程

266 VIEWS
2024年10月28日
Stickerbaker:一个开源的「贴纸生成器」几秒钟生成一个精美的贴纸

Stickerbaker:一个开源的「贴纸生成器」几秒钟生成一个精美的贴纸

81 VIEWS
2024年2月27日

Copyright (c) 2024 by Xiaohu.AI.

  • About
  • Contact

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In

Add New Playlist

No Result
View All Result
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
  • Login

© 2024 Xiaohu.AI

Are you sure want to unlock this post?
Unlock left : 0
Are you sure want to cancel subscription?
转到手机版