苹果发布 Ferret-UI 2 专门理解和与移动用户界面交互的模型让手机成为通用UI助手

Ferret-UI是由苹果开发的一个专门理解和与移动用户界面（UI）互动的多模态大语言模型（MLLM）。

它把移动UI的视觉元素和语言元素结合起来，不仅能“看懂”屏幕上的内容，还能理解用户的指令和问题，进而执行任务或提供信息。它的目标是成为一个“通用UI助手”，让它在不同设备上都能理解屏幕上的内容，并根据用户的需求做出相应的操作。

https://xiaohu.ai/p/5780 苹果近日更新了该模型的最新版本， 发布了Ferret-UI 2 。Ferret-UI 2 相较于早期版本 Ferret-UI，进行了多个方面的改进，使得它在多平台的用户界面（UI）理解和复杂任务处理方面更为出色。

早期的 Ferret-UI 主要支持移动设备（如 iPhone 和 Android 手机）的UI理解，而 Ferret-UI 2 扩展到了平板（如 iPad）、网页和智能电视（如 Apple TV）等多种平台。这种改进使得 Ferret-UI 2 成为一个可以跨多种设备和平台使用的通用模型 。

同时Ferret-UI 2可以 适应不同分辨率的屏幕 ，可以在高清大屏或手机小屏上都保持准确的UI识别效果。无论屏幕大小或清晰度如何，它都能精准识别屏幕上的按钮、图标和文本等元素。

主要改进 1. 多平台支持 早期版本的限制 ：Ferret-UI 1 主要集中在移动设备（如 iPhone 和 Android）的UI理解和交互，支持的设备类型有限，难以应对不同平台的分辨率、屏幕比例和UI布局差异。 Ferret-UI 2 的扩展 ：在 Ferret-UI 2 中，模型增加了对更多平台的支持，包括平板（如 iPad）、网页和智能电视（如 Apple TV）等。这一改进让模型可以在多种设备上无缝工作。它在不同屏幕类型上能够准确识别和操作UI元素，尤其是适应了不同平台在UI设计上的差异，比如网页中的层级结构、Apple TV的横向界面布局等。 应用场景拓展 ：这种多平台支持使 Ferret-UI 2 在跨平台应用开发、测试和智能助手等领域更具实用性，能够处理多种设备上的用户界面，无需为每个平台重新训练模型。 2. 高分辨率自适应处理 自适应网格技术（Adaptive Gridding） ：Ferret-UI 2 在图像处理方面引入了自适应网格技术。该技术可以将UI界面截图划分成多个适应屏幕分辨率的网格，模型能够针对每个网格独立处理高分辨率图像，从而保留界面中的细节。 优点 ：相比于固定网格分辨率的 Ferret-UI 1，自适应网格技术可以确保模型在高分辨率设备上识别更加精准，例如分辨出图标中的小文本或按钮上的细微边界。 动态分辨率支持 ：Ferret-UI 2 可以处理任意分辨率的UI截图，无论是高清大屏电视还是小屏手机，模型都能够准确适应，使得它在信息密度较高的界面中也能有效工作。 任意分辨率方法（Any-Resolution Support） ：除了自适应网格，Ferret-UI 2 还结合了任意分辨率支持方法。这使得模型能够根据不同分辨率优化图像处理过程，避免在高分辨率图像上丢失信息。 具体实现 ：模型首先提取低分辨率图像的全局特征，接着在高分辨率局部区域提取细节特征，这样能够兼顾整体和局部的信息。 好处 ：在面对需要细节识别的任务（如定位精确位置或理解UI结构）时，模型可以保持高精度，适应各种平台和屏幕的UI布局。 3. 高质量多模态训练数据生成 视觉标记提示（Set-of-Mark Visual Prompting） ：Ferret-UI 2 利用 GPT-4o 来生成更高质量的多模态数据 ，并在数据生成中引入了视觉标记提示。这种方法在UI截图上标注特定元素的边界，并在每个元素角落放置唯一标记，以便更好地识别。 效果 ：通过视觉标记提示，模型可以更准确地理解UI组件的位置、边界和空间关系。例如，对于相邻或嵌套的组件，模型能够通过标记准确区分，避免混淆。 改进的数据质量 ：与早期模型仅基于文本生成的标注数据不同，视觉标记提示方法使 Ferret-UI 2 的训练数据包含了更丰富的视觉和空间信息，提高了数据质量和模型的UI理解精度。 任务数据生成的扩展 ：Ferret-UI 2 的训练数据不仅涵盖了基础任务（如元素定位、文本识别），还生成了复杂的用户交互任务数据。 基础任务 ：OCR（光学字符识别）、UI元件分类（例如按钮或图标）、元件是否可点击等。 高级任务 ：复杂的用户交互问答，例如多轮对话、识别UI层级结构、以及单步或多步操作。这些任务数据使得模型不仅能识别UI元素，还能执行用户请求的实际操作。 GPT-4o 支持的增强数据生成 ：在高级任务数据生成时，Ferret-UI 2 采用了改进的 GPT-4o 提示方法，使得生成的数据更贴近实际应用场景。通过多轮交互的方式生成复杂任务的训练数据，模型能够在训练时学会更自然的交互方式和更深入的UI理解。 4. 支持更复杂的用户交互任务 用户中心的交互理解 ：Ferret-UI 2 不仅能执行基础点击和操作指令，还能理解更复杂的用户意图。 模型能够根据用户的模糊指令做出准确响应，例如当用户说“确认订单”时，模型可以找到相应的“确认”按钮，而不是简单机械地匹配描述。 单步用户意图理解 ：Ferret-UI 2 可以理解用户指令的意图，直接执行任务，而不是仅仅根据文字定位元素。例如，用户请求“进入下一步”时，模型会定位到“下一步”按钮，而不仅仅执行基于文本的定位。 多轮对话和复杂交互任务 ：在复杂任务中，模型能够完成多轮对话和交互。例如，在用户需要查看订单详情时，模型可以理解并执行多步操作，逐步展开信息。Ferret-UI 2 支持多轮问答，能够在用户请求细节时保持上下文理解和连续交互。 高级任务的实现 ：模型不仅可以识别UI，还可以执行特定操作，例如滑动页面、填写表单和选择选项。这使得它在自动化测试、虚拟助手和智能操作系统中具有广泛的应用前景。 模型架构 Ferret-UI 2 基于 Ferret-UI 的架构，结合 CLIP 图像编码器和任意分辨率模块（AnyRes），通过自适应网格技术动态提取图像特征，从而在高分辨率下提升 UI 理解和交互的准确性。模型通过全局和局部图像特征输入多模态LLM，结合用户指令识别相关UI区域，并生成基于用户的操作描述。 Ferret-UI 2 的模型架构设计围绕跨平台的 UI 理解和用户交互展开，主要基于图像编码器、语言模型和自适应网格技术来实现对不同分辨率、不同平台界面的高效理解和操作。 1. 图像编码器： 图像编码器的任务就是“看图”，把设备屏幕上的界面截图转化为模型能理解的视觉信息。 功能 ：Ferret-UI 2 使用了 CLIP 的 ViT-L/14 模型作为图像编码器。这个编码器的主要任务是将输入的 UI 截图转化为可以被模型处理的视觉特征。CLIP 是一个多模态模型，能够将图像和文本映射到同一向量空间中，方便后续语言模型对视觉信息的理解。 工作方式 ：图像编码器处理输入截图时，提取了两种特征，它把整个截图分成两个部分来看：： 全局特征 ： 整体看一眼，了解整个界面的布局。 通过低分辨率图像输入提取整个 UI 的全局视图，帮助模型理解整体布局和UI结构。 局部特征 ： 放大细节，关注具体按钮、图标或文字，这样可以识别出小细节，比如按钮上的字或图标的小标志。 在高分辨率的图像区域中提取细节特征，这些局部特征提供了 UI 元素的精细信息，使模型可以识别出具体按钮、图标和文本等小的细节。 2. 自适应网格技术（智能分割屏幕） 自适应网格技术相当于把屏幕截图按情况划分成不同的网格，这样可以适应不同设备的分辨率（比如手机、平板和电视屏幕大小不一样）。 作用 ：Ferret-UI 2 的核心创新之一是自适应网格技术。这个技术允许模型在不同分辨率的 UI 截图上划分出不同数量和大小的网格，从而在保证信息完整性的同时适应高分辨率显示。 工作机制 ： 模型会根据屏幕分辨率智能选择网格的数量和大小，让每个区域都保持清晰度。这样，模型无论在手机小屏还是电视大屏上，都能看清楚界面细节。 通过自适应网格，模型能够根据设备屏幕的原始分辨率选择最优的网格数量和大小。这种方法可以平衡计算资源和图像分辨率，让模型可以在高分辨率设备上准确识别UI元素。 动态调整 ：自适应网格会根据输入图像的分辨率和宽高比例调整网格的数量，使模型在不同设备上能适应不同的 UI 分辨率。 网格生成算法 ：Ferret-UI 2 的自适应网格算法通过在图像上遍历不同的网格配置，选择那些分辨率失真最小且像素变化最小的配置。这种方法保证了模型的输入在转换过程中尽可能少地丢失图像信息。 通过这个方法，模型可以避免图像失真或细节丢失，从而更准确地识别每个 UI 元素。 3. 视觉采样器（Visual Sampler） 功能 ： 视觉采样器帮助模型找到当前任务或指令需要关注的区域。 视觉采样器用于从图像特征中挑选出与用户指令相关的 UI 区域。这一模块在模型接收到用户指令时，根据需求确定哪些 UI 区域需要重点关注。 工作机制 ：视觉采样器将全局和局部的图像特征进行筛选，只保留那些与当前任务或指令相关的特征。这样可以减少模型的计算量，并确保只处理与用户意图直接相关的视觉信息。 当用户给出操作指令（比如“点击确认”）时，视觉采样器会把注意力集中在“确认”按钮所在的位置，而忽略其他不相关的区域。 这种方法让模型在执行操作时更准确，减少计算量，也更高效。 应用场景 ：例如，用户下达“点击确认”命令时，视觉采样器会帮助模型识别出“确认”按钮的具体位置，使得操作更加准确。 4. 语言模型（LLM, Large Language Model） 功能 ：语言模型（LLM）是 Ferret-UI 2 的核心部分之一，它将视觉特征转换成自然语言描述，并根据用户指令生成具体的交互操作。 它是模型的“大脑”，负责理解用户的文字指令并生成具体的操作。 多模态融合 ：在 Ferret-UI 2 中，LLM 会接收来自图像编码器的视觉特征，并将其与用户的文本指令结合，通过多模态理解实现对 UI 的精准交互。 支持的任务类型 ：语言模型可以处理多种任务，包括 UI 元素定位（如识别特定文本位置）、元件分类（如按钮、图标、文本框）和具体交互（如点击、滑动、输入等）。 5. 高级任务处理（User-Centered Interaction Processing） 功能 ：Ferret-UI 2 的架构支持复杂的用户交互任务，能够理解用户的模糊指令并执行相应的操作。 它还可以理解更复杂的交互需求。 多轮问答和多步操作 ：模型支持多轮对话和连续交互，能够在复杂任务中维持上下文理解。例如，用户可以连续发出多个请求（如“查看订单详情”然后“确认订单”），模型能够理解并顺利执行。 高效的单步操作 ：Ferret-UI 2 对单步操作进行了优化，能够直接响应用户的具体操作指令，例如“点击提交”或“滑动到下一屏”。这种优化使得模型能够在响应用户的单个操作时快速执行，提升了用户体验。 6. 整体架构流程 步骤1：图像输入与特征提取 ：UI截图首先通过图像编码器提取全局和局部特征，生成高分辨率和低分辨率的视觉特征。 步骤2：自适应网格划分 ：根据输入图像的分辨率，应用自适应网格技术划分图像区域。视觉特征经过网格优化后，进入下一步处理。 步骤3：视觉采样与多模态融合 ：视觉采样器根据用户指令筛选相关的UI区域，将筛选后的特征传递给语言模型。 步骤4：语言模型理解与生成 ：语言模型将视觉信息与用户指令结合，生成符合用户意图的响应，包括界面描述、元素识别和交互操作等。 步骤5：执行与反馈 ：模型生成具体的交互指令，例如点击某个按钮、填写表单，或者滚动页面，然后返回操作结果。 实验结果 Ferret-UI 2 在多项任务上超越了早期版本的性能，包括： 基准测试 ：在多个平台上的指示（referring）、定位（grounding）和高级任务上均表现优异，特别是在跨平台任务传递和 GUIDE 基准测试中展现了出色的性能。 零样本能力 ：在 GUI-World 基准测试中展示出良好的零样本适应性，能够直接迁移到新的测试数据上，显示了强大的泛化能力。 消融实验 为了评估 Ferret-UI 2 的关键模块贡献，研究人员进行了消融实验，结果表明模型的自适应网格和改进的数据集在多平台 UI 理解中提供了显著的性能提升。 1. 跨平台测试 测试平台 ：Ferret-UI 2 在 iPhone、Android、iPad、网页和 Apple TV 等平台上进行了测试。 性能提升 ：在所有平台的任务测试中（如定位、点击、滑动等），Ferret-UI 2 均优于早期版本。它不仅可以在每个平台上保持稳定的 UI 元素识别和定位，还能高效适应各个平台的独特布局和分辨率。 跨平台迁移 ：实验表明，模型能够很好地从一个平台迁移到另一个平台。例如，在 iPhone 上训练的模型能够较准确地在 iPad 和 Android 上完成类似任务，显示出强大的跨平台通用性。 2. 高分辨率自适应能力 高分辨率处理 ：Ferret-UI 2 的自适应网格技术允许它在高分辨率设备上依旧保持较高的精确度。例如，在测试复杂界面细节时，Ferret-UI 2 能够准确识别小字体或边界模糊的按钮，而早期的固定分辨率方法在这些任务上表现较差。 准确率提升 ：与 Ferret-UI 相比，Ferret-UI 2 在高分辨率任务中提升了准确率。例如，在定位按钮和文本框的任务中，其识别准确率比早期版本提高了大约 10%-15%。 3. 高级任务表现 复杂任务测试 ：Ferret-UI 2 通过高级任务（如多轮交互、用户意图理解等）测试展示了优异的表现。模型能够处理更复杂的用户需求，例如在多步骤任务中理解并执行连续的指令（如“打开设置 -> 点击通知 -> 开启通知”）。 用户中心交互 ：在实验中，Ferret-UI 2 展现出更好的用户中心交互能力。相比早期版本只关注基础点击操作，Ferret-UI 2 可以根据用户模糊的指令（例如“确认订单”）执行实际的操作，理解和执行意图更准确。 4. 基准测试对比 GUIDE 和 GUI-World 基准测试 ：在 GUIDE 和 GUI-World 等标准数据集上，Ferret-UI 2 展现了领先的表现。它在 GUIDE 数据集的下一步操作预测中获得了更高的准确率，表明其在复杂场景下的预测能力更强。 定量评估 ：在 GUI-World 的跨平台测试中，Ferret-UI 2 在 iOS、Android 和 Web 上的平均得分优于大多数同类模型，展示了更强的零样本（未见过数据的场景）表现。 5. 消融实验结果 架构和数据改进的影响 ：通过对比实验，研究人员发现，Ferret-UI 2 的架构改进（如自适应网格）和数据增强（如视觉提示标记）对模型的整体性能提升有显著作用。例如，仅使用新数据而不使用新架构时，模型性能也有所提升，但两者结合后效果最佳。 数据集质量的提升 ：新数据集中的视觉标记提示有效提升了模型对复杂 UI 布局的理解，特别是在多平台、多样化界面上表现更稳定。消融实验表明，这些改进让模型在用户界面任务中更准确，响应更灵敏。 案例展示： Ferret-UI 2 模型与 iPhone 交互的真实示例。 Ferret-UI 2 模型与 iPad 交互的真实示例。 Ferret-UI 2 模型与 AppleTV 交互的真实示例。 Ferret-UI 2 模型按照 GUIDE 式 QA 在实时网页上执行多步骤交互的示例。 论文： https://arxiv.org/pdf/2410.18967 模型： https://huggingface.co/jadechoghari/Ferret-UI-Llama8b GitHub： https://github.com/apple/ml-ferret