Menu

  • Home
  • Trending
  • Recommended
  • Latest

分类目录

  • AI 工具
  • AI新势力
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
XiaoHu.AI学院
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
No Result
View All Result
  • Login
XiaoHu.AI学院
No Result
View All Result
Home 开源项目案例库 AI 项目

OpenAI 宣布推出Whisper large-v3-turbo 语音转录模型 速度提高了8倍

by 小互
2024年10月2日
in AI 项目
0 0
0
OpenAI 宣布推出Whisper large-v3-turbo 语音转录模型 速度提高了8倍
0
SHARES
554
VIEWS
Share on FacebookShare on Twitter

OpenAI 宣布推出了一个名为 large-v3-turbo(简称 turbo)的新 Whisper 模型。这是 Whisper large-v3 的优化版本,将解码器层数从大型模型的 32 层减少到与 tiny 模型相同的 4 层。此优化版本的开发受到了 Distil-Whisper 的启发,后者表明使用较小的解码器可以显著提升转录速度,同时对准确性的影响较小。

速度比 large-v3 快 8 倍,但质量几乎没有下降!

Whisper large-v3-turbo 主要功能和特点:

  1. 更少的解码器层数:
    • 与 Whisper large-v3 相比,large-v3-turbo 只使用了 4 个解码器层,而 large-v3 使用了 32 个解码器层。较少的解码器层数使得模型在保持相对高准确度的同时,显著提高了处理速度。
  2. 优化的速度表现:
    • Turbo 模型的语音转录速度比 tiny 模型更快,是 Whisper 系列模型中速度与准确性兼顾的“最佳选择”。通过使用更小的解码器层数,该模型提升了实时转录的能力。
    • 通过减少解码层数和启用 torch.compile,推理速度可提升高达 4.5 倍,进一步提高了模型的效率,非常适合需要低延迟的应用场景。
  3. 多语言支持:
    • 支持 99 种语言的语音转录,表现出色,并且与大型数据集兼容,包括 FLEURS 和 Common Voice 数据集,尤其在高质量录音上效果更佳。
  4. 跨语言的高效表现:
    • Turbo 模型的跨语言转录表现与 large-v2 相当,但在一些语言(如泰语和粤语)上表现较弱。在一些录音质量较高的数据集(如 FLEURS)上,turbo 模型的表现优于 Common Voice 数据集。
  5. 更快的自动语音识别 (ASR):
    • 结合最新的技术补丁(#2359),turbo 模型在使用 F.scaled_dot_product_attention(缩放点积注意力机制)时,能进一步提升自动语音识别的速度。
  6. 专注于转录任务:
    • Turbo 模型专为多语言转录任务微调,不适合翻译任务,因为训练时不包含翻译数据。它在纯语音转录方面的表现更为优异,但翻译任务表现较差。
  7. 使用与集成方便:
    • 开发者可以通过简单的 Python 包更新或 Whisper 的命令行工具默认使用 turbo 模型,使得其在实际应用中更易于集成。

GitHub:https://github.com/openai/whisper/discussions/2363

模型下载:https://huggingface.co/openai/whisper-large-v3-turbo

在线体验:https://huggingface.co/spaces/hf-audio/whisper-large-v3-turbo

Related Posts

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM)  让模型更像人类思考
XiaoHu.AI日报

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM) 让模型更像人类思考

2024年12月25日
483
阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型
XiaoHu.AI日报

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

2024年12月25日
338
Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本
AI 工具

Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

2024年12月24日
450
Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音
XiaoHu.AI日报

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

2024年12月24日
279
Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型
AI 论文

Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型

2024年12月23日
617
INFP:基于音频驱动的双人对话中的互动头像生成  能自动区分谁在说话,谁在听
AI 项目

INFP:基于音频驱动的双人对话中的互动头像生成 能自动区分谁在说话,谁在听

2024年12月22日
429

Recommendeds

Twitter-Insight-LLM:抓取Twitter数据并可通过自然语言搜索图像

Twitter-Insight-LLM:抓取Twitter数据并可通过自然语言搜索图像

450 VIEWS
2024年4月19日
X-to-Voice:输入你的 Twitter 账号名称 自动生成能说话的个人资料头像

X-to-Voice:输入你的 Twitter 账号名称 自动生成能说话的个人资料头像

171 VIEWS
2024年11月1日
软宣布有史以来性能最优的逻辑量子比特 并将推出世界上最强大的量子计算机

软宣布有史以来性能最优的逻辑量子比特 并将推出世界上最强大的量子计算机

87 VIEWS
2024年9月11日
Prompt 学习地图 23 | 人称误区 – 谁是“你”,谁是“我”

Prompt 学习地图 23 | 人称误区 – 谁是“你”,谁是“我”

82 VIEWS
2024年5月3日
Google扩充Gemma开源家族 推出CodeGemma 和 RecurrentGemma模型

Google扩充Gemma开源家族 推出CodeGemma 和 RecurrentGemma模型

311 VIEWS
2024年4月10日
OpenAI官方提示指南 获得更好结果的六种策略

OpenAI官方提示指南 获得更好结果的六种策略

218 VIEWS
2024年3月19日
教程:如何在 Midjourney 中通过混合 srefs 创建双重色彩图像效果

教程:如何在 Midjourney 中通过混合 srefs 创建双重色彩图像效果

102 VIEWS
2024年8月29日
DiffusionGPT:由LLM驱动的文本到图像生成系统 集成多个专家图像生成模型

DiffusionGPT:由LLM驱动的文本到图像生成系统 集成多个专家图像生成模型

29 VIEWS
2024年3月6日
研究:语言模型可以通过吸收同源模型的参数来获得新的能力

研究:语言模型可以通过吸收同源模型的参数来获得新的能力

58 VIEWS
2024年4月7日
Stability AI 开源其 Stable Diffusion 3 Medium 模型 可在消费级笔记本电脑上运行

Stability AI 开源其 Stable Diffusion 3 Medium 模型 可在消费级笔记本电脑上运行

484 VIEWS
2024年6月12日

Copyright (c) 2024 by Xiaohu.AI.

  • About
  • Contact

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In

Add New Playlist

No Result
View All Result
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
  • Login

© 2024 Xiaohu.AI

Are you sure want to unlock this post?
Unlock left : 0
Are you sure want to cancel subscription?
转到手机版