NVIDIA 推出的 AI Blueprint：可以帮你观看数小时的视频并提供摘要总结和问答

NVIDIA 推出的 AI Blueprint ，这是一套用于构建视觉AI代理的框架，帮助开发者构建视频理解和摘要功能的解决方案。

AI Blueprint利用生成式AI、视觉语言模型（VLM）和大语言模型（LLM）实现对长视频的搜索、问答和实时事件检测等功能。

通过这个 Blueprint，用户可以轻松构建视频搜索和摘要智能体，利用 AI 技术生成对超长视频内容的概述、回答问题以及检测实时事件。

如何实现视频摘要：

适用场景：

比如，你有几个小时的监控视频或会议录像，Blueprint 可以帮助快速总结其中的主要事件、关键对话和重要时刻，而不需要你逐帧观看。

这使得 Blueprint 特别适合用于需要监控和回顾长时间视频的场景，如安全监控、教育视频回顾和客户服务记录等。

视频摘要生成：
- 上传视频后，系统自动生成内容摘要。用户可以使用自定义的提示语，告诉系统需要关注哪些对象、事件或动作，从而生成更加精确的摘要。
- 配置选项包括：
  - 片段长度（chunk duration）：视频分割的每段长度。片段越小，描述越精细，但处理时间会增加。
  - 片段重叠（chunk overlap）：增加片段之间的重叠区域，以确保视频中的重要事件不会被遗漏。
互动式问答：
- 系统会构建一个知识图谱，可以支持用户在视频分析完成后进行自然语言问答。例如，用户可以询问“某物体什么时候出现在画面中？”系统会基于知识图谱提供答案。
- 这个功能使得用户无需逐帧浏览视频，便可快速找到关键信息。
实时流媒体监控与警报：
- 在处理实时视频流时，系统允许用户设置警报规则。例如，可以设置摄像头监控森林区域，并在检测到动物或火灾时发出警报。
- 用户可以用自然语言定义警报条件，系统实时监控视频流，一旦满足条件便会发送通知。

视频流处理器（Stream Handler）：
- 将长视频或实时视频分割为较小的片段，每个片段的长度可配置。
- 使用 NVIDIA 的 VLM（视觉语言模型）分析每个视频片段并生成高密度的描述。这一过程通过 GPU 加速，提升了处理效率。
视觉语言模型（VLM）与 CA-RAG 模块：
- VLM 管道：VLM 用于处理视频片段，生成关于每个片段的详细描述。这个过程包含对视频帧的采样、解码和描述生成。
- CA-RAG（上下文感知检索增强生成）：将所有片段描述聚合成一个完整的摘要。CA-RAG 帮助提升摘要的准确性，使整个视频的内容更加连贯和完整。
知识图谱与 Graph-RAG 模块：
- 知识图谱会将视频内容中的信息转化为“节点”和“边”的形式，存储在图数据库中。
- 通过 Graph-RAG 技术，智能体可以理解视频中复杂的事件关系，使问答和实时检测更加准确。例如，系统可以追踪视频中的某一物体或事件的完整发展过程。

简单来说，Blueprint 将长视频分成多个小片段，通过视觉语言模型（VLM）逐一分析片段内容，再由大语言模型（LLM）将这些片段的描述汇总成简明扼要的总结。

视频处理与分析：
- 系统首先将视频文件或实时视频流分成多个小片段，每个片段会独立处理，生成密集描述（例如，场景中的物体、人物或事件等）。
- 对于长视频，系统采用滑动窗口的方式，确保每个片段都覆盖到关键内容。
数据聚合与摘要生成：
- 在片段分析完成后，CA-RAG 模块将所有片段的描述整合生成一个总结，确保视频摘要连贯准确。
- 用户可以选择合适的摘要长度和细节级别，根据需求调整摘要的精细程度。
知识图谱构建：
- 系统将视频描述信息以节点和边的形式存储在图数据库中，建立知识图谱。这种结构化信息可以帮助系统进行复杂问答和关系追踪。
- Graph-RAG 模块允许系统在用户提出问题时查询知识图谱，为互动式问答提供准确答案。