Menu

  • Home
  • Trending
  • Recommended
  • Latest

分类目录

  • AI 工具
  • AI新势力
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
XiaoHu.AI学院
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
No Result
View All Result
  • Login
XiaoHu.AI学院
No Result
View All Result
Home 开源项目案例库 AI 论文

ScreenAI:能读懂用户屏幕和信息图的视觉语言模型

by 小互
2024年4月14日
in AI 论文
0 0
0
0
SHARES
597
VIEWS
Share on FacebookShare on Twitter

ScreenAI 是Google Research开发的一款视觉语言模型,专门针对用户界面(UI)和信息图的理解和交互。它结合了视觉和语言处理技术,旨在改善和加强计算机对于UI和信息图内容的理解能力。解决用户界面和信息图的复杂性和多样化的展示格式的挑战,提升了这些领域的机器理解能力。

该模型在UI和信息图相关任务上取得了最新的成果,并引入了三个新的数据集:Screen Annotation、ScreenQA Short和Complex ScreenQA,以全面评估模型的布局理解能力和问答(QA)能力。

解决什么问题?

  1. 复杂性和多样性的挑战:用户界面和信息图由于其设计复杂性和展示格式的多样性,给模型理解和交互带来了挑战。
  2. 信息理解和操作的需求:在人机交互中,需要模型不仅理解视觉元素,如图表、图标和布局,还要根据这些信息执行操作,如回答问题、导航和总结。

有什么功能?

  1. 布局理解:通过新引入的Screen Annotation数据集评估模型的布局理解能力,即识别和解释屏幕上的各种UI元素和信息图的布局和结构。
  2. 问答能力:通过ScreenQA Short和Complex ScreenQA数据集,评估模型在解答关于UI和信息图内容的具体问题上的表现。
  3. 自动标注和数据生成:模型能自动识别和标注用户界面的各种元素,如文本、图像、按钮等,并生成相应的语言描述,这些描述可以用来训练模型进行问答、导航和内容总结。
  4. 多模态交互:结合视觉和文本输入,处理将图像+文本转换为文本的任务,提升模型在多模态情境下的性能。
  5. 自我监督学习与微调:模型在自我监督学习阶段自动生成标签,通过大量屏幕截图的分析学习,然后在微调阶段进一步优化,使用人工标注的数据提高准确性和适应性。

任务示例:(a) 屏蔽屏幕注释;(b) 问答;(c) 导航;(d) 总结。后三个任务是使用我们的屏幕注释模型和 PaLM-2-S 生成的。

技术方法

ScreenAI基于PaLI架构,结合了可灵活配置的拼图策略( pix2struct)。它采用多模态编码器块和自回归解码器,可以处理视觉任务,这些任务可以被重新构思为图文到文本的问题。ScreenAI首先利用自动化技术从不同设备上编译大量屏幕截图,然后通过布局注释器和图标分类器对UI元素进行识别和标记。在预训练阶段,模型通过自我监督学习自动生成数据标签,然后进行微调,微调阶段使用的大部分数据由人工评估标注。

1. 模型架构:
  • 基础架构:ScreenAI 采用了PaLI(Pathways Language and Image)架构,这是一种结合了 vision transformer(ViT)和多模态编码器的模型。ViT负责创建图像嵌入,而多模态编码器则处理图像和文本嵌入的组合。
  • 灵活的拼图策略:引入了pix2struct中的灵活拼图策略,不是使用固定网格,而是选择保持输入图像原始宽高比的网格尺寸,这使得模型能够更好地适应各种宽高比的图像。
2. 数据生成与标注:
  • 屏幕截图收集:从多种设备(如桌面、移动设备和平板)上收集大量屏幕截图。
  • 布局注释:使用基于DETR模型的布局注释器自动识别和标注屏幕上的UI元素,如图片、图标、按钮和文本,并解析它们的空间关系。
  • 图标分类与描述:利用图标分类器识别和分类多达77种不同的图标类型,对于分类器无法覆盖的图标和信息图,使用PaLI图像描述模型生成描述性文本。
  • 文本内容提取:应用光学字符识别(OCR)技术提取屏幕上的文本内容,并将这些文本与其他注释结合,形成详细的屏幕描述。

3、基于LLM数据生成

在 ScreenAI 的研究中,大语言模型(LLM)基于的数据生成是一项关键技术,旨在自动化和扩展训练数据的创建过程。这种方法利用大型语言模型的强大处理能力,生成高质量的、结构化的训练数据,特别是针对UI和信息图的问答、导航和摘要任务。以下是该技术的主要内容和特点:

  1. 数据生成过程:

    • 屏幕注释:首先,系统通过自动化工具对收集到的屏幕截图进行详细的注释。这包括识别和标记UI元素如按钮、图标、文本等,并分析它们的空间关系。
    • 文本描述生成:利用LLMs,基于屏幕注释信息生成文本描述。这些描述涵盖了界面上的元素类型、位置以及它们的功能和上下文信息。
  2. 利用LLM生成问答数据:

    • 问答对生成:系统通过将注释好的屏幕描述输入LLMs,生成相关的问答对。这些问答对旨在测试和训练模型对屏幕内容的理解和回应能力。
    • 迭代优化:生成过程可能包括多次迭代,通过调整生成提示(prompts)和参数来优化问答对的质量和相关性。
  3. 自动化与规模化:

    • 高效率:使用LLMs进行数据生成可以极大地提高数据准备的效率,减少对人工标注的依赖。
    • 大规模应用:这种方法支持在大规模上自动生成数据,适用于需要大量训练数据的机器学习项目。
  4. 质量控制:

    • 人工验证:尽管数据生成是自动化的,但生成的数据质量通常通过人工验证来确保,以满足一定的质量标准。
  5. 应用场景:

    • 问答系统训练:生成的问答数据用于训练模型,以更好地理解和回答关于UI界面的具体问题。
    • 导航和操作指令:生成的数据还可以帮助模型学习如何根据用户的自然语言指令进行屏幕导航和操作。
    • 内容摘要:利用LLM生成的数据还可以训练模型对屏幕内容进行有效摘要。

      通过将LLMs 的自然语言功能与结构化模式相结合,模拟了各种用户交互和场景,从而生成合成的现实任务。具体而言,我们生成了三类任务:

      • Question answering: The model is asked to answer questions regarding the content of the screenshots, e.g., “When does the restaurant open?”
        问题解答:要求模型回答与截图内容有关的问题,例如 “餐厅什么时候开门?
      • Screen navigation: The model is asked to convert a natural language utterance into an executable action on a screen, e.g., “Click the search button.”
        屏幕导航:要求模型将自然语言语句转换为屏幕上的可执行操作,例如 “点击搜索按钮”。
      • Screen summarization: The model is asked to summarize the screen content in one or two sentences.
        屏幕摘要:要求模型用一两句话概括屏幕内容。

      LLM-生成数据。屏幕 QA、导航和汇总示例。对于导航,截图中的操作边界框显示为红色。

4. 训练与微调:
  • 自我监督学习:在预训练阶段,模型通过自我监督学习自动生成数据标签,这一阶段主要使用ViT和语言模型进行训练。
  • 人工标注数据的微调:在微调阶段,大部分使用的数据由人工标注,此阶段冻结ViT,专注于优化语言模型的性能。

实现的效果:

1. 性能提升:

  • 在多个公开的信息图问答基准测试中,ScreenAI 显示出超越大型模型(尺寸是其10倍或以上)的最新状态性能。此外,在文档VQA、WebSRC和其他相关任务中,ScreenAI 也展示了一流或接近最佳的性能。
  • 在新引入的基准测试(Screen Annotation、ScreenQA Short和Complex ScreenQA)上,模型展示了出色的布局注释和问答能力。

2. 应用多样性:

Support authors and subscribe to content

This is premium stuff. Subscribe to read the entire article.

Login if you have purchased

加入会员

加入会员查看更多会员内容和教程。
超过1000+的会员内容,每天更新。
开通会员

Related Posts

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM)  让模型更像人类思考
XiaoHu.AI日报

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM) 让模型更像人类思考

2024年12月25日
483
阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型
XiaoHu.AI日报

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

2024年12月25日
337
Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本
AI 工具

Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

2024年12月24日
449
Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音
XiaoHu.AI日报

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

2024年12月24日
278
Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型
AI 论文

Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型

2024年12月23日
616
INFP:基于音频驱动的双人对话中的互动头像生成  能自动区分谁在说话,谁在听
AI 项目

INFP:基于音频驱动的双人对话中的互动头像生成 能自动区分谁在说话,谁在听

2024年12月22日
428

Recommendeds

LivePortrait:只需一张静态肖像图像就能生成动态视频 可精确控制眼睛和嘴唇的动作

LivePortrait:只需一张静态肖像图像就能生成动态视频 可精确控制眼睛和嘴唇的动作

991 VIEWS
2024年7月4日
MindEye2:仅需1小时训练数据就能从大脑活动中重建所见图像

MindEye2:仅需1小时训练数据就能从大脑活动中重建所见图像

44 VIEWS
2024年3月19日
教程:使用 E2F5工具实现文本转语音和唇同步视频制作

教程:使用 E2F5工具实现文本转语音和唇同步视频制作

373 VIEWS
2024年11月7日
ChatGPT 记忆功能上线 能记住你和GPT互动的所有内容

ChatGPT 记忆功能上线 能记住你和GPT互动的所有内容

861 VIEWS
2024年4月30日
MistoLine:将手绘的草图直接生成符合草图轮廓的高质量图像

MistoLine:将手绘的草图直接生成符合草图轮廓的高质量图像

284 VIEWS
2024年5月8日
和 GPT 4o 匹敌 世界上最快的语音机器 实现500毫秒的语音到语音响应

和 GPT 4o 匹敌 世界上最快的语音机器 实现500毫秒的语音到语音响应

562 VIEWS
2024年6月28日
Meta 发布端到端生成高质量的 3D 资产生成模型 不到一分钟生成高质量3D模型

Meta 发布端到端生成高质量的 3D 资产生成模型 不到一分钟生成高质量3D模型

300 VIEWS
2024年7月3日
Hume AI 推出 Voice Control 功能 通过滑块操作即可实现个性化的语音定制

Hume AI 推出 Voice Control 功能 通过滑块操作即可实现个性化的语音定制

249 VIEWS
2024年12月3日
Synthesia:能根据文本语义表达情感和情绪变化的虚拟数字人

Synthesia:能根据文本语义表达情感和情绪变化的虚拟数字人

1.5k VIEWS
2024年4月26日
特斯拉正在招聘人员来进行Optimus机器人训练工作 时薪48美金

特斯拉正在招聘人员来进行Optimus机器人训练工作 时薪48美金

247 VIEWS
2024年8月21日

Copyright (c) 2024 by Xiaohu.AI.

  • About
  • Contact

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In

Add New Playlist

No Result
View All Result
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
  • Login

© 2024 Xiaohu.AI

Are you sure want to unlock this post?
Unlock left : 0
Are you sure want to cancel subscription?
转到手机版