Menu

  • Home
  • Trending
  • Recommended
  • Latest

分类目录

  • AI 工具
  • AI新势力
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
XiaoHu.AI学院
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
No Result
View All Result
  • Login
XiaoHu.AI学院
No Result
View All Result
Home 开源项目案例库 AI 项目

CTRL-F-VIDEO: 视频Ctrl-F 可以在视频中搜索特定的单词或短语

by 小互
2024年4月16日
in AI 项目
0 0
0
CTRL-F-VIDEO: 视频Ctrl-F 可以在视频中搜索特定的单词或短语
0
SHARES
309
VIEWS
Share on FacebookShare on Twitter

CTRL-F-VIDEO 是一个开源项目,使用户能够在视频中搜索特定的单词或短语。

这个项目主要针对YouTube视频,通过一个Chrome扩展来实现搜索功能。用户在YouTube视频页面通过扩展输入想要搜索的词汇,可以直接在视频时间条上标记出匹配的词汇或相似词汇的出现位置。

例如,如果你在观看一个讲座视频,想要找到讲师提到“全球变暖”的部分,只需要在这个扩展中输入“全球变暖”,就可以看到所有提到这个短语的时间点。这个功能尤其适合学习和研究使用,可以帮助你节省查找信息的时间。

主要功能

  1. 文本搜索和时间条标记: 用户可以在YouTube视频中搜索特定的词汇或短语,并在视频的时间条上用不同颜色标记出直接匹配和相似匹配的词汇。
    • 直接匹配: 在视频中直接出现的词汇用绿色标记。
    • 相似匹配: 基于Levenshtein距离或音素距离显示的相似词汇用紫色标记(准确度较低)。
    • 音素完全匹配: 音素完全相同的匹配用橙色标记(偶尔有效)。
  2. 音频到文本转换: 利用OpenAI的Whisper模型将视频中的音频转换为文本,从而实现准确的搜索和匹配。
  3. 结果存储: 对于每一个搜索过的YouTube URL,搜索结果会被存储在json文件中,便于之后再次访问该视频时快速获取之前的搜索结果。

工作原理

  • Chrome扩展: 用户首先需要将CTRL-F-VIDEO项目作为Chrome扩展加载到浏览器中。这个扩展提供了一个用户界面,让用户可以输入他们想要在视频中搜索的词汇。
  • Flask API: 通过运行一个Python应用,启动一个Flask API,这个API允许本地的Whisper模型在用户的GPU上运行。这一步骤是必要的,因为它处理音频到文本的转换,并支持搜索功能。
  • 视频处理: 当用户在YouTube视频页面使用该扩展并输入搜索词后,Flask API会处理视频中的音频,将其转换为文本,并寻找匹配的词汇。
  • 结果显示: 匹配的词汇会根据其类型(直接匹配、相似匹配、音素匹配)在视频的时间条上以不同颜色标记。

效率

该项目能够在高性能的GPU(如RTX 3090)上处理一个5分钟的视频仅需约16秒,显示了其高效的处理能力和快速的响应时间。

虽然该项目还处于很初级的阶段,偶尔不是很奏效,但是提供了一个很好的思路。

GitHub:https://github.com/Evan-Wildenhain/CTRL-F-VIDEO

Related Posts

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM)  让模型更像人类思考
XiaoHu.AI日报

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM) 让模型更像人类思考

2024年12月25日
483
阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型
XiaoHu.AI日报

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

2024年12月25日
337
Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本
AI 工具

Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

2024年12月24日
449
Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音
XiaoHu.AI日报

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

2024年12月24日
278
Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型
AI 论文

Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型

2024年12月23日
616
INFP:基于音频驱动的双人对话中的互动头像生成  能自动区分谁在说话,谁在听
AI 项目

INFP:基于音频驱动的双人对话中的互动头像生成 能自动区分谁在说话,谁在听

2024年12月22日
428

Recommendeds

SuperCraft:通过无限工作流画布 将草图直接转换成真实产品图像 并自动生成3D渲染

SuperCraft:通过无限工作流画布 将草图直接转换成真实产品图像 并自动生成3D渲染

1.3k VIEWS
2024年8月26日
2024Microsoft Build大会超全纪录 新的Phi-3多模态模型、Copilot Agents

2024Microsoft Build大会超全纪录 新的Phi-3多模态模型、Copilot Agents

226 VIEWS
2024年5月22日
Character.AI 介绍其在 AI 推理方面的技术创新 让其服务成本减少了33倍

Character.AI 介绍其在 AI 推理方面的技术创新 让其服务成本减少了33倍

140 VIEWS
2024年6月24日
RayDINO :能够对胸部X光片进行全面分析并识别常见疾病的视觉模型

RayDINO :能够对胸部X光片进行全面分析并识别常见疾病的视觉模型

356 VIEWS
2024年5月11日
Hallo 2:根据单张图像和音频输入能够生成长达一小时的4K分辨率人像视频

Hallo 2:根据单张图像和音频输入能够生成长达一小时的4K分辨率人像视频

405 VIEWS
2024年10月18日
MobiLlama:一个0.5B大小 能在手机上运行的小型语言模型

MobiLlama:一个0.5B大小 能在手机上运行的小型语言模型

74 VIEWS
2024年2月27日
PDF Guru Anki:一款以PDF为中心的多功能办公学习工具箱 十分强大

PDF Guru Anki:一款以PDF为中心的多功能办公学习工具箱 十分强大

370 VIEWS
2024年8月6日
Copilot 的 20 项功能,可帮助提高 10 倍的工作效率

Copilot 的 20 项功能,可帮助提高 10 倍的工作效率

151 VIEWS
2024年3月24日
Gemini 推出了专门提升学生的学习体验新功能 5 种帮助学生更聪明地学习的方法

Gemini 推出了专门提升学生的学习体验新功能 5 种帮助学生更聪明地学习的方法

233 VIEWS
2024年8月30日
生数科技发布可生成最长 16 秒、1080P 视频的类Sora模型:Vidu

Vidu:发布技术报告 披露技术细节 首个国产媲美Sora的视频生成模型

600 VIEWS
2024年5月9日

Copyright (c) 2024 by Xiaohu.AI.

  • About
  • Contact

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In

Add New Playlist

No Result
View All Result
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
  • Login

© 2024 Xiaohu.AI

Are you sure want to unlock this post?
Unlock left : 0
Are you sure want to cancel subscription?
转到手机版