苹果开发出能 “看 “懂屏幕上下文的人工智能不需要依赖屏幕截图

苹果研究人员开发了一种新型人工智能系统，它能理解屏幕上下文和含糊不清的提法从而改善与语音助手的交互，使得与语音助手的互动更加自然。 ReALM 使用解析的屏幕实体重建屏幕，生成文本表示，其性能优于 GPT-4。 通过这项研究，苹果公司正在着力提高 Siri 的对话能力和情境感知能力。 该系统名为ReALM（引用解析作为语言建模），通过利用大型语言模型将引用解析的复杂任务——包括理解对屏幕上视觉元素的引用——转化为一个纯粹的语言建模问题。这使ReALM能够与现有方法相比取得显著的性能提升。ReALM的一个关键创新是重构屏幕，使用解析的屏幕实体及其位置生成文本表示，捕获视觉布局。 对于涉及屏幕上参考的任务，ReALM（一种参考解析为语言建模的方法）在性能上超过了GPT-4，并且它做到了这一点而无需将屏幕截图作为输入。这与GPT-4不同，在使用GPT-4时，如果提供了图像作为输入，其性能会有所提升。

简单来说，就是 ReALM能够仅通过处理文本信息，就准确理解和解析用户关于屏幕上内容的指令或查询 ，而 不需要依赖屏幕截图或图像数据。 相比之下，GPT-4虽然也能处理涉及屏幕参考的任务，但当给它提供了与查询相关的屏幕截图或图像时，其解析性能会更好。ReALM通过其创新的方法，能够在没有图像输入的情况下，直接从文本化的屏幕内容和上下文中，高效地进行参考解析。

ReALM的设计允许它在与用户交流的过程中，理解和识别用户屏幕上显示的内容，即使没有直接接收到屏幕截图或图像作为输入。它通过将屏幕上的元素和布局转换为文本形式，然后利用这些文本信息来解析用户提出的与屏幕内容相关的查询或指令。这意味着，如果你在与一个使用ReALM技术的应用交谈时，这个系统可以帮助理解和执行涉及到你屏幕上内容的任务， 如“打开我屏幕上显示的第一个应用”或“读取屏幕中央的新闻标题”，即使它实际上没有“看到”你的屏幕。 这种能力特别适用于需要对屏幕上信息进行快速反应和处理的应用场景，如虚拟助手和辅助技术等。

ReALM的主要功能特点： 高效的参考解析 跨模态理解 ：ReALM通过将屏幕内容和对话历史转化为文本形式，使得LLMs能够处理非对话实体的参考解析，如用户屏幕上的元素或后台运行的应用，提升了系统对用户意图的理解。 文本化屏幕表示 ：ReALM创新性地将屏幕元素及其位置信息转换为纯文本表示，这使得LLMs能够“视觉”理解屏幕上的实体，提高了对屏幕上参考的解析准确性。 强大的模型性能 显著的性能提升 ：与现有系统相比，ReALM在不同类型的参考解析任务上显示出了显著的性能提升，即使是最小的模型也实现了超过5%的绝对增益。 与GPT-4相当的性能 ：ReALM的最小模型在性能上与GPT-4相当，而更大的模型则显著超过GPT-4，尽管在参数数量和计算需求上更加高效。 应用广泛 多类型参考兼容 ：ReALM能够处理包括对话参考和屏幕参考在内的多种类型的参考解析任务，提高了语音助手在各种交互场景下的灵活性和效能。 增强的上下文理解 ：通过对屏幕内容和对话历史的综合理解，ReALM能够更准确地捕捉到用户的意图和上下文，提供更贴合用户需求的响应和服务。 模块化与可扩展性 模块化设计 ：ReALM的模块化设计使得参考解析模块可以透明地替换为改进版本，提高了系统的可维护性和升级灵活性。 针对性优化 ：通过针对参考解析任务特别调整和优化的小型LLMs，ReALM在保持轻量级的同时，确保了高性能和快速响应。 工作原理 ReALM（Reference Resolution As Language Modeling）的工作原理基于几个关键步骤，将参考解析转化为一个语言建模的问题。这些步骤结合了先进的自然语言处理技术和大型语言模型（LLMs）的强大能力，使其能够理解和解析涉及屏幕上内容的参考。下面是ReALM工作原理的简要概述：