ReCap：能够自动分析2个小时长的视频，并生成准确描述

ReCap是一个创新的递归式视频字幕模型，能够自动分析视频内容，并在不同的时间层级上（如短片段、中等长度段落和长视频总结）生成准确的文字描述。

这些视频可以非常短，比如只有1秒钟，也可以非常长，长达2小时。除了生成文字描述外，视频ReCap还能够用于视频问答（VideoQA）任务，即根据视频内容回答相关问题。

为了能够高效地处理这么广泛长度的视频，并且准确地为它们生成字幕，ReCap采用了一种独特的设计，即“递归的视频-语言架构”。

它允许模型以一种循环重复的方式处理视频内容，以适应并理解视频的不同层次和长度。这里的“递归”就像是一个循环过程，模型可以在这个过程中多次利用相同的处理步骤，但每次针对视频的不同部分或不同层次的内容。

具体来说，这种架构的工作方式如下：

分层处理 ：视频通常可以被分解成多个层次，比如从单个动作的短片段，到描述一系列动作的中等长度视频，再到概括整个视频主题或故事的长视频总结。递归架构允许模型从最基础的层次开始处理视频，逐步向上构建，直至形成对整个视频内容的全面理解。

重复使用处理步骤 ：在处理不同层次的视频内容时，模型可以重复使用相同的处理机制。例如，模型先为视频的每个小片段生成字幕，然后基于这些片段的字幕来生成更长片段（或整个视频）的描述。这种重复利用相同步骤的过程，就是递归处理的体现。

高效处理长视频 ：通过这种递归方式，模型不需要一次性处理整个长视频，而是可以通过分解成更小、更易管理的部分来逐步建立对视频的全面理解。这使得模型能够更高效地处理长视频，无论视频有多长，都能够在合理的时间内生成准确的字幕。

ReCap的主要功能包括：

<li data-immersive-translate-walked="1f8478c7-9aaf-48f4-b63b-adfd2fc4799a" style="border: 0px solid rgb(227, 227, 227); box-sizing: border-box; --tw-border-spacing-x: 0; --tw-border-spacing-y: 0; --tw-translate-x: 0; --tw-translate-y: 0; --tw-rotate: 0; --tw-skew-x: 0; --tw-skew-y: 0; --tw-scale-x: 1; --tw-scale-y: 1; --tw-pan-x: ; --tw-pan-y: ; --tw-pinch-zoom: ; --tw-scroll-snap-strictness: proximity; --tw-gradient-from-position: ; --tw-gradient-via-position: ; --tw-gradient-to-position: ; --tw-ordinal: ; --tw-slashed-zero: ; --tw-numeric-figure: ; --tw-numeric-spacing: ; --tw-numeric-fraction: ; --tw-ring-inset: ; --tw-ring-offset-width: 0px; --tw-ring-offset-color: #fff; --tw-ring-color: rgba(69,89,164,.5); --tw-ring-offset-shadow: 0 0 transparent; --tw-ring-shadow: 0 0 transparent; --tw-shadow: 0 0 transparent; --tw-shadow-colored: 0 0 transparent; --tw-blur: ; --tw-brightness: ; --tw-contrast: ; --tw-grayscale: ; --tw-hue-rotate: ; --tw-invert: ; --tw-saturate: ; --tw-sepia: ; --tw-drop-shadow: ; --tw-backdrop-blur: ; --tw-backdrop-brightness: ; --tw-backdrop-contrast: ; --tw-backdrop-grayscale: ; --tw-backdrop-hue-rotate: ; --tw-backdrop-invert: ; --tw-backdrop-opacity: ; --tw-backdrop-saturate: ; --tw-backdrop-sepia: ; margin-bottom: 0px; margin-top: 0px; padding-left: 0.375em; counter-increment: list-number 1; display: block; min-height: 28px;"><p data-immersive-translate-walked="1f8478c7-9aaf-48f4-b63b-adfd2fc4799a" style="border: 0px solid rgb(227, 227, 227); box-sizing: border-box; --tw-border-spacing-x: 0; --tw-border-spacing-y: 0; --tw-translate-x: 0; --tw-translate-y: 0; --tw-rotate: 0; --tw-skew-x: 0; --tw-skew-y: 0; --tw-scale-x: 1; --tw-scale-y: 1; --tw-pan-x: ; --tw-pan-y: ; --tw-pinch-zoom: ; --tw-scroll-snap-strictness: proximity; --tw-gradient-from-position: ; --tw-gradient-via-position: ; --tw-gradient-to-position: ; --tw-ordinal: ; --tw-slashed-zero: ; --tw-numeric-figure: ; --tw-numeric-spacing: ; --tw-numeric-fraction: ; --tw-ring-inset: ; --tw-ring-offset-width: 0px; --tw-ring-offset-color: #fff; --tw-ring-color: rgba(69,89,164,.5); --tw-ring-offset-shadow: 0 0 transparent; --tw-ring-shadow: 0 0 transparent; --tw-shadow: 0 0 transparent; --tw-shadow-colored: 0 0 transparent; --tw-blur: ; --tw-brightness: ; --tw-contrast: ; --tw-grayscale: ; --tw-hue-rotate: ; --tw-invert: ; --tw-saturate: ; --tw-sepia: ; --tw-drop-shadow: ; --tw-backdrop-blur: ; --tw-backdrop-brightness: ; --tw-backdrop-contrast: ; --tw-backdrop-grayscale: ; --tw-backdrop-hue-rotate: ; --tw-backdrop-invert: ; --tw-backdrop-opacity: ; --tw-backdrop-saturate: ; --tw-backdrop-sepia: ; margin: 0px;"><span data-immersive-translate-walked="1f8478c7-9aaf-48f4-b63b-adfd2fc4799a" style="border: 0px solid rgb(227, 227, 227); box-sizing: border-box; --tw-border-spacing-x: 0; --tw-border-spacing-y: 0; --tw-translate-x: 0; --tw-translate-y: 0; --tw-rotate: 0; --tw-skew-x: 0; --tw-skew-y: 0; --tw-scale-x: 1; --tw-scale-y: 1; --tw-pan-x: ; --tw-pan-y: ; --tw-pinch-zoom: ; --tw-scroll-snap-strictness: proximity; --tw-gradient-from-position: ; --tw-gradient-via-position: ; --tw-gradient-to-position: ; --tw-ordinal: ; --tw-slashed-zero: ; --tw-numeric-figure: ; --tw-numeric-spacing: ; --tw-numeric-fraction: ; --tw-ring-inset: ; --tw-ring-offset-width: 0px; --tw-ring-offset-color: #fff; --tw-ring-color: rgba(69,89,164,.5); --tw-ring-offset-shadow: 0 0 transparent; --tw-ring-shadow: 0 0 transparent; --tw-shadow: 0 0 transparent; --tw-shadow-colored: 0 0 transparent; --tw-blur: ; --tw-brightness: ; --tw-contrast: ; --tw-grayscale: ; --tw-hue-rotate: ; --tw-invert: ; --tw-saturate: ; --tw-sepia: ; --tw-drop-shadow: ; --tw-backdrop-blur: ; --tw-backdrop-brightness: ; --tw-backdrop-contrast: ; --tw-backdrop-grayscale: ; --tw-backdrop-hue-rotate: ; --tw-backdrop-invert: ; --tw-backdrop-opacity: ; --tw-backdrop-saturate: ; --tw-backdrop-sepia: ; font-weight: 600; color: var(--tw-prose-bold);">多层次视频字幕生成 ：能够为不同长度的视频生成字幕，包括短片段（如每几秒一个动作描述）、中等长度段落（如每几分钟的活动或故事步骤描述）以及长视频总结（概述视频的整体意图和目标）。

短片段字幕 ：最基本层次，模型生成描述视频中特定动作或场景的短片段字幕。 中等长度段落描述 ：在此层次，模型利用短片段字幕来生成描述视频中一系列动作或故事线中间步骤的段落级描述。 长视频总结 ：最高层次，模型综合前两个层次的输出，生成描述视频整体内容和目的的长视频总结。

支持复杂视频理解任务 ： 长范围视频问答（VideoQA） ：ReCap不仅能生成字幕，还能理解视频内容，支持在复杂的视频问答任务中表现出色，即根据视频内容回答问题。 内容深度理解 ：通过生成的层次化字幕，ReCap展示了对视频内容深度理解的能力，这对于其他视频分析任务也是有益的。

Ego4D-HCap数据集

项目引入了一个名为Ego4D-HCap的层次化视频字幕数据集。这个数据集是通过在已有的Ego4D数据集基础上，增加了8,267个手动收集的长范围视频摘要而形成的。这样的数据集设计旨在帮助模型更好地学习和生成在不同时间尺度上的视频字幕，例如短片段的动作描述、中等长度的活动段落描述以及长视频的整体总结。