Twitter-Insight-LLM：抓取Twitter数据并可通过自然语言搜索图像

Twitter-Insight-LLM 是一个开源项目，主要功能包括从Twitter抓取数据、基于嵌入的图像搜索，以及其他一些数据分析和处理功能。

同时利用LLM还能对Twitter数据进行深入分析，支持多种功能，包括数据可视化和图像标注。

主要功能

Twitter 数据抓取：
- 功能：使用Selenium自动化工具从Twitter用户的账户中抓取他们点赞的推文，并将数据保存为JSON和Excel文件。
- 实现方式：通过模拟浏览器操作，登录用户的Twitter账户，自动导航到用户的点赞页面，并抓取相关数据。
- 输出：抓取到的数据会被保存为JSON格式和Excel文件，便于后续的数据分析和记录。
基于嵌入的图像搜索：
- 功能：允许用户使用自然语言描述来搜索图库中未经标注的图像。功能支持多语言，但在英语中的效果更佳。
- 实现方式：利用图像嵌入技术，将图像和文本描述转换为高维空间中的点，通过计算点之间的距离来找到最匹配的图像。
- 应用：这项功能支持多语言查询，特别适用于需要快速找到特定图像的场合，如媒体行业和内容创作者使用。
  
  例如，以下是搜索 “黑猫”（中文）的结果，但您也可以搜索 “照片中的一群人”、”工作流程图 “或 “悲伤 “等更抽象的概念。
数据分析和可视化：
- 功能：对抓取的Twitter数据进行初步的分析和可视化。
- 实现方式：使用Python的数据分析库（如Pandas和Matplotlib）来处理数据和生成图表，例如按时间和媒体类型分析点赞趋势，或生成喜欢的推文的日历热图。
- 应用：帮助用户洞察自己的Twitter活动模式，或用于市场分析和社交媒体策略制定。
图像标注：
- 功能：为保存的Twitter图片自动生成描述性文字。
- 实现方式：使用OpenAI的API，结合大型语言模型来生成关于图片内容的描述，这些描述会根据图片的视觉内容自动产生。
- 应用：适用于需要快速生成大量图像标注的场景，如内容管理系统或自动化社交媒体管理。

工作原理

1. 数据抓取

使用Selenium：项目首先使用Selenium，这是一个自动化测试工具，用于模拟用户在浏览器中的行为。通过Selenium自动登录Twitter账户，导航至特定的Twitter页面（如用户的“喜欢”列表），并抓取数据。
保存数据：抓取的数据包括推文内容、媒体（如图片和视频）链接等，这些数据随后被保存为JSON格式和Excel文件，方便后续的处理和分析。

2. 基于嵌入的图像搜索