Menu

  • Home
  • Trending
  • Recommended
  • Latest

分类目录

  • AI 工具
  • AI新势力
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
XiaoHu.AI学院
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
No Result
View All Result
  • Login
XiaoHu.AI学院
No Result
View All Result
Home 开源项目案例库 AI 项目

CTRL-F-VIDEO: 视频Ctrl-F 可以在视频中搜索特定的单词或短语

by 小互
2024年4月16日
in AI 项目
0 0
0
CTRL-F-VIDEO: 视频Ctrl-F 可以在视频中搜索特定的单词或短语
0
SHARES
309
VIEWS
Share on FacebookShare on Twitter

CTRL-F-VIDEO 是一个开源项目,使用户能够在视频中搜索特定的单词或短语。

这个项目主要针对YouTube视频,通过一个Chrome扩展来实现搜索功能。用户在YouTube视频页面通过扩展输入想要搜索的词汇,可以直接在视频时间条上标记出匹配的词汇或相似词汇的出现位置。

例如,如果你在观看一个讲座视频,想要找到讲师提到“全球变暖”的部分,只需要在这个扩展中输入“全球变暖”,就可以看到所有提到这个短语的时间点。这个功能尤其适合学习和研究使用,可以帮助你节省查找信息的时间。

主要功能

  1. 文本搜索和时间条标记: 用户可以在YouTube视频中搜索特定的词汇或短语,并在视频的时间条上用不同颜色标记出直接匹配和相似匹配的词汇。
    • 直接匹配: 在视频中直接出现的词汇用绿色标记。
    • 相似匹配: 基于Levenshtein距离或音素距离显示的相似词汇用紫色标记(准确度较低)。
    • 音素完全匹配: 音素完全相同的匹配用橙色标记(偶尔有效)。
  2. 音频到文本转换: 利用OpenAI的Whisper模型将视频中的音频转换为文本,从而实现准确的搜索和匹配。
  3. 结果存储: 对于每一个搜索过的YouTube URL,搜索结果会被存储在json文件中,便于之后再次访问该视频时快速获取之前的搜索结果。

工作原理

  • Chrome扩展: 用户首先需要将CTRL-F-VIDEO项目作为Chrome扩展加载到浏览器中。这个扩展提供了一个用户界面,让用户可以输入他们想要在视频中搜索的词汇。
  • Flask API: 通过运行一个Python应用,启动一个Flask API,这个API允许本地的Whisper模型在用户的GPU上运行。这一步骤是必要的,因为它处理音频到文本的转换,并支持搜索功能。
  • 视频处理: 当用户在YouTube视频页面使用该扩展并输入搜索词后,Flask API会处理视频中的音频,将其转换为文本,并寻找匹配的词汇。
  • 结果显示: 匹配的词汇会根据其类型(直接匹配、相似匹配、音素匹配)在视频的时间条上以不同颜色标记。

效率

该项目能够在高性能的GPU(如RTX 3090)上处理一个5分钟的视频仅需约16秒,显示了其高效的处理能力和快速的响应时间。

虽然该项目还处于很初级的阶段,偶尔不是很奏效,但是提供了一个很好的思路。

GitHub:https://github.com/Evan-Wildenhain/CTRL-F-VIDEO

Related Posts

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM)  让模型更像人类思考
XiaoHu.AI日报

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM) 让模型更像人类思考

2024年12月25日
494
阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型
XiaoHu.AI日报

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

2024年12月25日
346
Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本
AI 工具

Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

2024年12月24日
460
Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音
XiaoHu.AI日报

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

2024年12月24日
284
Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型
AI 论文

Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型

2024年12月23日
636
INFP:基于音频驱动的双人对话中的互动头像生成  能自动区分谁在说话,谁在听
AI 项目

INFP:基于音频驱动的双人对话中的互动头像生成 能自动区分谁在说话,谁在听

2024年12月22日
435

Recommendeds

NVIDIA 推出的 AI Blueprint:可以帮你观看数小时的视频并提供摘要总结和问答

NVIDIA 推出的 AI Blueprint:可以帮你观看数小时的视频并提供摘要总结和问答

328 VIEWS
2024年11月10日
image-Translator: 一键翻译各类图片、漫画内文字 支持多种语言

image-Translator: 一键翻译各类图片、漫画内文字 支持多种语言

262 VIEWS
2024年3月21日
Google开发了一种名为TimesFM的时间序列预测模型 可预测未来

Google开发了一种名为TimesFM的时间序列预测模型 可预测未来

497 VIEWS
2024年5月12日
Cloudflare推出了一个新的开发工具:Workflows 大幅简化多步骤应用的构建

Cloudflare推出了一个新的开发工具:Workflows 大幅简化多步骤应用的构建

252 VIEWS
2024年10月25日
LlamaFS:基于Llama 3的能自动帮你分类整理电脑里文件的工具

LlamaFS:基于Llama 3的能自动帮你分类整理电脑里文件的工具

920 VIEWS
2024年5月27日
Stickerbaker:一个开源的「贴纸生成器」几秒钟生成一个精美的贴纸

Stickerbaker:一个开源的「贴纸生成器」几秒钟生成一个精美的贴纸

81 VIEWS
2024年2月27日
Google NotebookLM 推出企业版和个性化控制 你可以自定义AI播客内容

Google NotebookLM 推出企业版和个性化控制 你可以自定义AI播客内容

177 VIEWS
2024年10月18日
DesignEdit:实现统一与精确的图像编辑 操控图像中的各个元素

DesignEdit:实现统一与精确的图像编辑 操控图像中的各个元素

119 VIEWS
2024年4月10日
Hugging Face发布了一个完全开源的端侧模型SmolLM 可在手机上运行

Hugging Face发布了一个完全开源的端侧模型SmolLM 可在手机上运行

166 VIEWS
2024年7月18日
FreeAskInternet:无需GPU 完全免费、私密且本地运行的搜索答案生成器

FreeAskInternet:无需GPU 完全免费、私密且本地运行的搜索答案生成器

300 VIEWS
2024年4月11日

Copyright (c) 2024 by Xiaohu.AI.

  • About
  • Contact

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In

Add New Playlist

No Result
View All Result
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
  • Login

© 2024 Xiaohu.AI

Are you sure want to unlock this post?
Unlock left : 0
Are you sure want to cancel subscription?
转到手机版