Menu

  • Home
  • Trending
  • Recommended
  • Latest

分类目录

  • AI 工具
  • AI新势力
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
XiaoHu.AI学院
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
No Result
View All Result
  • Login
XiaoHu.AI学院
No Result
View All Result
Home 开源项目案例库 AI 项目

Fish Audio 发布语音到语音模型Fish Agent V0.1 3B 实现“即时”语音克隆

by 小互
2024年11月5日
in AI 项目, XiaoHu.AI日报
0 0
0
Fish Audio 发布语音到语音模型Fish Agent V0.1 3B 实现“即时”语音克隆
0
SHARES
590
VIEWS
Share on FacebookShare on Twitter

Fish Audio 发布高级语音处理模型Fish Agent V0.1 3B,它是一个语音到语音模型,它可以高效、精确地生成和处理语音,尤其适合模拟或克隆不同的声音。

该模型是在 Qwen-2.5-3B-Instruct 的基础上继续预训练完成的,涵盖了 2000 亿语音和文本令牌。

  • 端到端架构:采用无语义层的真正端到端(E2E)架构。
  • 零样本语音克隆:支持无需训练即可实现语音克隆。
  • 精简的 3B 参数:使用 30 亿参数,便于开发。
  • 支持文本和音频输入:灵活的多输入方式。
  • 超快响应时间:仅需 200 毫秒的文本到音频转换时间(TTFA)。
twittervid.com_FishAudio_829c1b

Fish Agent V0.1 3B 的一大特点是无语义令牌架构。这意味着它不像传统模型那样需要先把语音转换成复杂的语义编码(如 Whisper 和 CosyVoice 使用的编码),而是直接在声音层面上处理和生成语音。这种直接处理方式让模型的反应速度更快,结构更简单,效率也更高。

Fish Agent V0.1 3B 可以快速、自然地生成高质量语音,同时减少了传统模型的复杂步骤,从而实现“即时”语音克隆和文本到语音转换。这让它更适合需要实时语音生成的应用,比如语音助手、自动客服、以及各种需要快速语音反馈的场景。

支持的语言及数据规模

  • 英语 (en): 约 30 万小时
  • 中文 (zh): 约 30 万小时
  • 德语 (de), 日语 (ja), 法语 (fr), 西班牙语 (es), 韩语 (ko), 阿拉伯语 (ar): 各约 2 万小时

关键特性

  1. 语音到语音生成:该模型能够捕捉并生成自然环境音频,适用于高精度语音生成任务,提供更真实的音频表现。
  2. 文本到语音转换:Fish Agent V0.1 3B 也是一款先进的 TTS 模型,支持将文本内容转换为高质量的语音输出。
  3. 多语言支持:该模型支持英语、中文、德语、日语、法语、西班牙语、韩语和阿拉伯语等多种语言,具备广泛的应用潜力。
  4. 大规模训练数据:模型基于约 70 万小时的多语言音频数据训练,使其在处理多种语言和语境时具备出色的适应性。
  5. 创新架构:Fish Agent V0.1 3B 采用了无语义令牌的架构,不需要传统的语义编码/解码器。这种设计提升了处理效率,同时可以减少对额外模块的依赖,使生成效果更稳定和高效。

同时Fish Audio 发布了Fish Speech 1.4 技术报告。

Fish-Speech 提出了一个具有多语言和多情感稳定性的创新 TTS 解决方案,通过快-慢双重自回归架构结合非字母-音素(non-G2P)架构,实现了跨语言和情感多样的高质量语音合成。

Fish Speech:完美支持中英日语言的开源TTS模型 接近人类水平

GitHub: http://github.com/fishaudio/fish-speech
Fish Agent Demo: http://huggingface.co/spaces/fishaudio/fish-agent
模型下载: http://huggingface.co/fishaudio/fish-agent-v0.1-3b
技术报告: http://arxiv.org/abs/2411.01156

目前,Fish Agent 的初步演示版本可以在 fish.audio/demo/live 上体验。

Related Posts

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM)  让模型更像人类思考
XiaoHu.AI日报

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM) 让模型更像人类思考

2024年12月25日
483
阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型
XiaoHu.AI日报

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

2024年12月25日
337
Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本
AI 工具

Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

2024年12月24日
449
Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音
XiaoHu.AI日报

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

2024年12月24日
278
Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型
AI 论文

Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型

2024年12月23日
616
INFP:基于音频驱动的双人对话中的互动头像生成  能自动区分谁在说话,谁在听
AI 项目

INFP:基于音频驱动的双人对话中的互动头像生成 能自动区分谁在说话,谁在听

2024年12月22日
428

Recommendeds

斯坦福医学院人工智能模型SyntheMol 帮助科学家能合成新的药物

斯坦福医学院人工智能模型SyntheMol 帮助科学家能合成新的药物

154 VIEWS
2024年4月2日
Mistral AI 发布了全新的 Pixtral Large 开源模型 超越 GPT-4o、Gemini-1.5 Pro 和 Claude-3.5 Sonnet

Mistral AI 发布了全新的 Pixtral Large 开源模型 超越 GPT-4o、Gemini-1.5 Pro 和 Claude-3.5 Sonnet

232 VIEWS
2024年11月19日
麻省理工大学开发出一种对大模型校准的方法 校准模型输出答案准确性

麻省理工大学开发出一种对大模型校准的方法 校准模型输出答案准确性

103 VIEWS
2024年8月3日
InstantMesh:10秒内从单张图片快速生成高质量的3D模型

InstantMesh:10秒内从单张图片快速生成高质量的3D模型

211 VIEWS
2024年4月17日
微软发布Phi-3.5-vision 轻量级、多模态的开源模型 端侧运行 可进行复杂视觉推理

微软发布Phi-3.5-vision 轻量级、多模态的开源模型 端侧运行 可进行复杂视觉推理

527 VIEWS
2024年8月21日
手把手教你如何打造《星际穿越》中的 TARS 机器人复制品

手把手教你如何打造《星际穿越》中的 TARS 机器人复制品

456 VIEWS
2024年7月8日
一站式AI最新研究更新、面试资源、免费课程等综合库

一站式AI最新研究更新、面试资源、免费课程等综合库

165 VIEWS
2024年3月28日
Responder 无人机 对接911报警系统 可70秒抵达案发现场实时监控

Responder 无人机 对接911报警系统 可70秒抵达案发现场实时监控

104 VIEWS
2024年5月26日
Sailor:是一套为东南亚国家量身定制的语言模型

Sailor:是一套为东南亚国家量身定制的语言模型

101 VIEWS
2024年3月2日
VimTS:自动识别图像或视频序中的文本信息并精确提取内容

VimTS:自动识别图像或视频序中的文本信息并精确提取内容

97 VIEWS
2024年5月13日

Copyright (c) 2024 by Xiaohu.AI.

  • About
  • Contact

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In

Add New Playlist

No Result
View All Result
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
  • Login

© 2024 Xiaohu.AI

Are you sure want to unlock this post?
Unlock left : 0
Are you sure want to cancel subscription?
转到手机版