Menu

  • Home
  • Trending
  • Recommended
  • Latest

分类目录

  • AI 工具
  • AI新势力
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
XiaoHu.AI学院
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
No Result
View All Result
  • Login
XiaoHu.AI学院
No Result
View All Result
Home AI 工具

FunClip :阿里巴巴开源的一款视频自动化视频剪辑工具

by 小互
2024年5月12日
in AI 工具
0 0
0
FunClip :阿里巴巴开源的一款视频自动化视频剪辑工具
0
SHARES
1.8k
VIEWS
Share on FacebookShare on Twitter

FunClip 是阿里巴巴通义实验室开源的一款视频剪辑工具,专门用于精准、便捷的视频切片。

它能够自动识别视频中的中文语音并允许用户根据语音内容来裁剪视频。该工具使用了阿里巴巴语音识别模型FunASR  Paraformer-Large确保了剪辑的精准性。

你可以根据识别结果选择文本片段或说话人进行视频裁剪。使得视频剪辑变得非常方便。FunClip不仅支持中文,未来还将支持英文视频剪辑,是视频内容创作者和编辑者的理想选择。

主要功能

  1. 高精度语音识别:

    • 利用阿里巴巴开源的 Paraformer-Large模型进行视频中的中文语音识别,该模型是当前市场上识别效果最佳的开源中文ASR模型之一。
    • 支持热词定制化功能,可以在语音识别过程中定制特定的实体词、人名等,以提高识别的准确度。
  2. 视频裁剪与剪辑:

    • 用户可以基于语音识别结果选择特定的文本片段或者说话人,进行视频的精确裁剪。
    • 集成 CAM++说说话人识别模型,使得用户可以根据自动识别出的说话人ID来选择裁剪的视频段落。
  3. 用户界面与交互:

    • 通过 Gradio 界面提供的交互式平台,用户可以方便地上传视频、设置参数并进行剪辑。
    • 界面友好,安装简单,使用户即使没有编程背景也能轻松使用。
  4. 功能扩展性:

    • 支持多段视频的自由剪辑,并能自动生成全视频及目标段落的SRT字幕,便于后续处理。
    • 计划集成英文视频剪辑能力和大语言模型,进一步拓宽工具的应用范围和功能。
GitHub:https://github.com/alibaba-damo-academy/FunClip
在线演示:modelscope.cn

FunASR介绍

FunASR 是阿里巴巴通义实验室开发的一款综合性语音识别工具包,提供端到端的语音识别解决方案和一系列开源的、性能优越的预训练模型。该工具包旨在桥接学术研究与工业应用,支持语音识别、语音活动检测(VAD)、标点恢复、语言模型、说话人验证和说话人区分等多种功能。

主要功能:

  1. 语音识别(ASR):

    • 提供非自回归端到端语音识别模型,如Paraformer-large,具有高准确性、高效率和便于部署的特点。
    • 支持多任务处理,如多语言识别、语音翻译和语言识别等。
  2. 语音活动检测(VAD)与标点恢复:

    • 通过预训练模型进行有效的语音活动区段检测。
    • 提供标点恢复功能,增强语音转写文本的可读性。
  3. 模型动态部署与优化:

    • 支持预训练模型的微调和推理。
    • 提供文件转录服务和实时转录服务,支持多种平台部署,如CPU和GPU。

GitHub:https://github.com/alibaba-damo-academy/FunASR
论文:https://arxiv.org/abs/2305.11013

Paraformer模型介绍

Paraformer 是一个非自回归端到端语音识别模型,由阿里巴巴达摩院语音团队开发。它是专为高效的GPU并行推理设计的,提供快速且准确的语音到文本的转换。此模型特别适用于处理长音频,集成了语音活动检测(VAD)、自动语音识别(ASR)、标点和时间戳功能。

它能够快速准确地将语音转换为文本。利用了最新的AI技术,可以处理非常长的音频记录,同时保持高准确率。非常适合需要处理大量语音数据的应用场景,如会议记录或语音输入法。Paraformer模型也支持自定义热词,这意味着可以优化模型以更好地识别特定词汇,这对于专业领域中的应用尤其有用。

核心特点和功能:

  1. 高效的模型架构:

    • Encoder: 可采用多种网络结构,如self-attention, conformer, SAN-M等。
    • Predictor: 两层FFN,负责预测目标文字个数并抽取对应的声学向量。
    • Sampler: 无可学习参数模块,将声学向量和目标向量转换为含有语义的特征向量。
    • Decoder: 采用双向建模,类似自回归模型,但能够提供更高的效率和准确度。
    • Loss Function: 包括交叉熵、MWER区分性优化目标及Predictor优化目标MAE。
  2. 功能拓展:

    • 热词定制版模型: 支持基于热词列表的激励增强,提升热词的召回率和准确率。
    • 长音频模型: 能够处理数小时长的音频,输出带标点和时间戳的文本。
  3. 应用场景:

    • 适用于语音输入法、语音导航、智能会议纪要等多种应用场景。
    • 非实时语音识别:从录音文件中解码文本。
    • 实时语音识别:支持流式语音识别,能够在语音输入时实时输出文本。

模型地址:modelscope.cn

SeACo-Paraformer论文:https://arxiv.org/abs/2308.03266

Related Posts

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM)  让模型更像人类思考
XiaoHu.AI日报

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM) 让模型更像人类思考

2024年12月25日
482
阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型
XiaoHu.AI日报

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

2024年12月25日
336
Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本
AI 工具

Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

2024年12月24日
448
Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音
XiaoHu.AI日报

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

2024年12月24日
278
Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型
AI 论文

Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型

2024年12月23日
614
INFP:基于音频驱动的双人对话中的互动头像生成  能自动区分谁在说话,谁在听
AI 项目

INFP:基于音频驱动的双人对话中的互动头像生成 能自动区分谁在说话,谁在听

2024年12月22日
428

Recommendeds

Xai 发布 Grok-2 模型新版本 速度提升3倍 多语言指令遵循能力更强

Xai 发布 Grok-2 模型新版本 速度提升3倍 多语言指令遵循能力更强

288 VIEWS
2024年12月15日
Clarity AI :AI图像放大与增强 – 免费且开源的Magnific替代品

Clarity AI :AI图像放大与增强 – 免费且开源的Magnific替代品

218 VIEWS
2024年4月7日
字节跳动发布一些列新的模型 包括基于DIT的视频生成模型、音乐模型,同声传译模型等

字节跳动发布一些列新的模型 包括基于DIT的视频生成模型、音乐模型,同声传译模型等

969 VIEWS
2024年9月24日
Bolt․new:AI 帮你自动写代码 自动运行并自动部署 而且全部在浏览器中完成

Bolt․new:AI 帮你自动写代码 自动运行并自动部署 而且全部在浏览器中完成

1.2k VIEWS
2024年10月5日
D-ID推出D-ID Agent功能:克隆自己的数字分身

D-ID推出D-ID Agent功能:克隆自己的数字分身

97 VIEWS
2024年3月4日
H2O:将人类动作实时转换为机器人动作 实时全身遥控机器人

H2O:将人类动作实时转换为机器人动作 实时全身遥控机器人

46 VIEWS
2024年3月11日
GPT-4 通过图灵测试?研究人员称人们在图灵测试中无法区分 GPT-4 和人类

GPT-4 通过图灵测试?研究人员称人们在图灵测试中无法区分 GPT-4 和人类

483 VIEWS
2024年6月20日
更改图像风格但保持角色和姿势一致的简单方法

更改图像风格但保持角色和姿势一致的简单方法

83 VIEWS
2024年3月7日
英国作家协会调查显示,1/3的翻译者和1/4的插画师已经因AI失去了工作

英国作家协会调查显示,1/3的翻译者和1/4的插画师已经因AI失去了工作

577 VIEWS
2024年4月28日
Replit 发布Replit  Agent AI应用开发助手  0基础编程用户也能开发程序

Replit 发布Replit  Agent AI应用开发助手 0基础编程用户也能开发程序

528 VIEWS
2024年9月6日

Copyright (c) 2024 by Xiaohu.AI.

  • About
  • Contact

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In

Add New Playlist

No Result
View All Result
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
  • Login

© 2024 Xiaohu.AI

Are you sure want to unlock this post?
Unlock left : 0
Are you sure want to cancel subscription?
转到手机版