Menu

  • Home
  • Trending
  • Recommended
  • Latest

分类目录

  • AI 工具
  • AI新势力
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
XiaoHu.AI学院
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
No Result
View All Result
  • Login
XiaoHu.AI学院
No Result
View All Result
Home 开源项目案例库 AI 项目

OpenAI 宣布推出Whisper large-v3-turbo 语音转录模型 速度提高了8倍

by 小互
2024年10月2日
in AI 项目
0 0
0
OpenAI 宣布推出Whisper large-v3-turbo 语音转录模型 速度提高了8倍
0
SHARES
554
VIEWS
Share on FacebookShare on Twitter

OpenAI 宣布推出了一个名为 large-v3-turbo(简称 turbo)的新 Whisper 模型。这是 Whisper large-v3 的优化版本,将解码器层数从大型模型的 32 层减少到与 tiny 模型相同的 4 层。此优化版本的开发受到了 Distil-Whisper 的启发,后者表明使用较小的解码器可以显著提升转录速度,同时对准确性的影响较小。

速度比 large-v3 快 8 倍,但质量几乎没有下降!

Whisper large-v3-turbo 主要功能和特点:

  1. 更少的解码器层数:
    • 与 Whisper large-v3 相比,large-v3-turbo 只使用了 4 个解码器层,而 large-v3 使用了 32 个解码器层。较少的解码器层数使得模型在保持相对高准确度的同时,显著提高了处理速度。
  2. 优化的速度表现:
    • Turbo 模型的语音转录速度比 tiny 模型更快,是 Whisper 系列模型中速度与准确性兼顾的“最佳选择”。通过使用更小的解码器层数,该模型提升了实时转录的能力。
    • 通过减少解码层数和启用 torch.compile,推理速度可提升高达 4.5 倍,进一步提高了模型的效率,非常适合需要低延迟的应用场景。
  3. 多语言支持:
    • 支持 99 种语言的语音转录,表现出色,并且与大型数据集兼容,包括 FLEURS 和 Common Voice 数据集,尤其在高质量录音上效果更佳。
  4. 跨语言的高效表现:
    • Turbo 模型的跨语言转录表现与 large-v2 相当,但在一些语言(如泰语和粤语)上表现较弱。在一些录音质量较高的数据集(如 FLEURS)上,turbo 模型的表现优于 Common Voice 数据集。
  5. 更快的自动语音识别 (ASR):
    • 结合最新的技术补丁(#2359),turbo 模型在使用 F.scaled_dot_product_attention(缩放点积注意力机制)时,能进一步提升自动语音识别的速度。
  6. 专注于转录任务:
    • Turbo 模型专为多语言转录任务微调,不适合翻译任务,因为训练时不包含翻译数据。它在纯语音转录方面的表现更为优异,但翻译任务表现较差。
  7. 使用与集成方便:
    • 开发者可以通过简单的 Python 包更新或 Whisper 的命令行工具默认使用 turbo 模型,使得其在实际应用中更易于集成。

GitHub:https://github.com/openai/whisper/discussions/2363

模型下载:https://huggingface.co/openai/whisper-large-v3-turbo

在线体验:https://huggingface.co/spaces/hf-audio/whisper-large-v3-turbo

Related Posts

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM)  让模型更像人类思考
XiaoHu.AI日报

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM) 让模型更像人类思考

2024年12月25日
483
阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型
XiaoHu.AI日报

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

2024年12月25日
337
Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本
AI 工具

Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

2024年12月24日
449
Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音
XiaoHu.AI日报

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

2024年12月24日
278
Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型
AI 论文

Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型

2024年12月23日
616
INFP:基于音频驱动的双人对话中的互动头像生成  能自动区分谁在说话,谁在听
AI 项目

INFP:基于音频驱动的双人对话中的互动头像生成 能自动区分谁在说话,谁在听

2024年12月22日
428

Recommendeds

解锁Midjourney工作流程 如何使用图像提示进行创造性工作

解锁Midjourney工作流程 如何使用图像提示进行创造性工作

46 VIEWS
2024年3月20日
MagicTime:能生成反映真实世界物理变化过程的时间延迟视频模型

MagicTime:能生成反映真实世界物理变化过程的时间延迟视频模型

76 VIEWS
2024年4月10日
Bing 推出生成式AI搜索功能 根据用户的查询提供量身定制的动态响应结果

Bing 推出生成式AI搜索功能 根据用户的查询提供量身定制的动态响应结果

124 VIEWS
2024年7月25日
PhysDreamer:够识别和理解3D对象的物理材质属性并生成真实物理动态

PhysDreamer:够识别和理解3D对象的物理材质属性并生成真实物理动态

123 VIEWS
2024年4月28日
特斯拉We Robot 发布会全纪录:完全无人驾驶出租车、Optimus 机器人、Robovan(机器人巴士)

特斯拉We Robot 发布会全纪录:完全无人驾驶出租车、Optimus 机器人、Robovan(机器人巴士)

306 VIEWS
2024年10月11日
首个 AI 高考评测结果发布 GPT-4o名列第二

首个 AI 高考评测结果发布 GPT-4o名列第二

348 VIEWS
2024年6月19日
StoryTribe :一个免费的在线故事板制作工具 无需绘画技能轻松制作故事板

StoryTribe :一个免费的在线故事板制作工具 无需绘画技能轻松制作故事板

1.1k VIEWS
2024年9月16日
Figma推出Multi-edit功能:让设计更简单,批量编辑轻松搞定

Figma推出Multi-edit功能:让设计更简单,批量编辑轻松搞定

91 VIEWS
2024年3月7日
英伟达发布全新Blackwell GPU计算平台 开启新工业革命

英伟达发布全新Blackwell GPU计算平台 开启新工业革命

22 VIEWS
2024年3月19日
不同文本转语音(TTS)模型对比 优缺点以及场景选择

不同文本转语音(TTS)模型对比 优缺点以及场景选择

644 VIEWS
2024年12月2日

Copyright (c) 2024 by Xiaohu.AI.

  • About
  • Contact

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In

Add New Playlist

No Result
View All Result
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
  • Login

© 2024 Xiaohu.AI

Are you sure want to unlock this post?
Unlock left : 0
Are you sure want to cancel subscription?
转到手机版