Menu

  • Home
  • Trending
  • Recommended
  • Latest

分类目录

  • AI 工具
  • AI新势力
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
XiaoHu.AI学院
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
No Result
View All Result
  • Login
XiaoHu.AI学院
No Result
View All Result
Home 开源项目案例库 AI 项目

CTRL-F-VIDEO: 视频Ctrl-F 可以在视频中搜索特定的单词或短语

by 小互
2024年4月16日
in AI 项目
0 0
0
CTRL-F-VIDEO: 视频Ctrl-F 可以在视频中搜索特定的单词或短语
0
SHARES
309
VIEWS
Share on FacebookShare on Twitter

CTRL-F-VIDEO 是一个开源项目,使用户能够在视频中搜索特定的单词或短语。

这个项目主要针对YouTube视频,通过一个Chrome扩展来实现搜索功能。用户在YouTube视频页面通过扩展输入想要搜索的词汇,可以直接在视频时间条上标记出匹配的词汇或相似词汇的出现位置。

例如,如果你在观看一个讲座视频,想要找到讲师提到“全球变暖”的部分,只需要在这个扩展中输入“全球变暖”,就可以看到所有提到这个短语的时间点。这个功能尤其适合学习和研究使用,可以帮助你节省查找信息的时间。

主要功能

  1. 文本搜索和时间条标记: 用户可以在YouTube视频中搜索特定的词汇或短语,并在视频的时间条上用不同颜色标记出直接匹配和相似匹配的词汇。
    • 直接匹配: 在视频中直接出现的词汇用绿色标记。
    • 相似匹配: 基于Levenshtein距离或音素距离显示的相似词汇用紫色标记(准确度较低)。
    • 音素完全匹配: 音素完全相同的匹配用橙色标记(偶尔有效)。
  2. 音频到文本转换: 利用OpenAI的Whisper模型将视频中的音频转换为文本,从而实现准确的搜索和匹配。
  3. 结果存储: 对于每一个搜索过的YouTube URL,搜索结果会被存储在json文件中,便于之后再次访问该视频时快速获取之前的搜索结果。

工作原理

  • Chrome扩展: 用户首先需要将CTRL-F-VIDEO项目作为Chrome扩展加载到浏览器中。这个扩展提供了一个用户界面,让用户可以输入他们想要在视频中搜索的词汇。
  • Flask API: 通过运行一个Python应用,启动一个Flask API,这个API允许本地的Whisper模型在用户的GPU上运行。这一步骤是必要的,因为它处理音频到文本的转换,并支持搜索功能。
  • 视频处理: 当用户在YouTube视频页面使用该扩展并输入搜索词后,Flask API会处理视频中的音频,将其转换为文本,并寻找匹配的词汇。
  • 结果显示: 匹配的词汇会根据其类型(直接匹配、相似匹配、音素匹配)在视频的时间条上以不同颜色标记。

效率

该项目能够在高性能的GPU(如RTX 3090)上处理一个5分钟的视频仅需约16秒,显示了其高效的处理能力和快速的响应时间。

虽然该项目还处于很初级的阶段,偶尔不是很奏效,但是提供了一个很好的思路。

GitHub:https://github.com/Evan-Wildenhain/CTRL-F-VIDEO

Related Posts

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM)  让模型更像人类思考
XiaoHu.AI日报

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM) 让模型更像人类思考

2024年12月25日
483
阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型
XiaoHu.AI日报

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

2024年12月25日
337
Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本
AI 工具

Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

2024年12月24日
449
Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音
XiaoHu.AI日报

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

2024年12月24日
278
Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型
AI 论文

Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型

2024年12月23日
616
INFP:基于音频驱动的双人对话中的互动头像生成  能自动区分谁在说话,谁在听
AI 项目

INFP:基于音频驱动的双人对话中的互动头像生成 能自动区分谁在说话,谁在听

2024年12月22日
428

Recommendeds

斯坦福大学研究成果:让达芬奇机器人能够自动执行外科手术

斯坦福大学研究成果:让达芬奇机器人能够自动执行外科手术

172 VIEWS
2024年7月29日
Claude 推出针对开发者自动生成提示词 并测试提示效果的工具

Claude 推出针对开发者自动生成提示词 并测试提示效果的工具

678 VIEWS
2024年7月10日
AI Scientist:全自动的完成科学研究并自动撰写论文  还能完成自动化同行评审

AI Scientist:全自动的完成科学研究并自动撰写论文 还能完成自动化同行评审

112 VIEWS
2024年8月14日
Prompt 学习地图 03  | 编写清晰的说明 – 分隔符的重要作用

Prompt 学习地图 03 | 编写清晰的说明 – 分隔符的重要作用

145 VIEWS
2024年3月25日
DiffusionGPT:由LLM驱动的文本到图像生成系统 集成多个专家图像生成模型

DiffusionGPT:由LLM驱动的文本到图像生成系统 集成多个专家图像生成模型

29 VIEWS
2024年3月6日
D-ID推出D-ID Agent功能:克隆自己的数字分身

D-ID推出D-ID Agent功能:克隆自己的数字分身

97 VIEWS
2024年3月4日
Claude 3全系支持函数调用工具Tool use  可与外部系统进行交互

Claude 3全系支持函数调用工具Tool use 可与外部系统进行交互

239 VIEWS
2024年6月1日
硅基智能开源其AI数字人交互平台 可以轻松创建逼真数字人

硅基智能开源其AI数字人交互平台 可以轻松创建逼真数字人

823 VIEWS
2024年6月28日
Luma AI 推出 Dream Machine API 开发者可将AI视频生成能力无缝集成到自己的产品中

Luma AI 推出 Dream Machine API 开发者可将AI视频生成能力无缝集成到自己的产品中

174 VIEWS
2024年9月18日
Wonder Dynamics 推出可将传统视频片段自动转换为 3D 动画场景新技术——Wonder Animation

Wonder Dynamics 推出可将传统视频片段自动转换为 3D 动画场景新技术——Wonder Animation

213 VIEWS
2024年11月1日

Copyright (c) 2024 by Xiaohu.AI.

  • About
  • Contact

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In

Add New Playlist

No Result
View All Result
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
  • Login

© 2024 Xiaohu.AI

Are you sure want to unlock this post?
Unlock left : 0
Are you sure want to cancel subscription?
转到手机版