ScreenAI：用于 UI 和视觉语言理解的视觉语言模型

4/21/2024

https://www.chatbro.cn/news/66252c27f1f37d784c55e05f

Google 近期发布了一款名为ScreenAI的视觉-语言模型，它专门用于理解和交互用户界面（UI）和信息图表（如图表、图解和表格），并在基于UI和信息图表的任务上取得了行业领先的成果。该模型的发布伴随着三个新数据集的推出：Screen Annotation（用于评估模型布局理解能力）、ScreenQA Short（短问答）和Complex ScreenQA（复杂问答），这些数据集旨在更全面地评估模型的问答能力。

用户界面和信息图表在人际交流和人机交互中扮演着重要角色，它们通过丰富和互动的用户体验促进了信息的传递。UI和信息图表共享类似的设计原则和视觉语言（例如图标和布局），这提供了构建一个单一模型来理解、推理和与这些接口交互的机会。然而，由于它们的复杂性和多样化的呈现格式，信息图表和UI提出了独特的建模挑战。

为了应对这些挑战，我们提出了“ScreenAI：一个用于UI和信息图表理解的视觉-语言模型”。ScreenAI在PaLI架构的基础上进行了改进，采用了pix2struct中的灵活补丁策略。我们在一个独特的数据集和任务混合上训练ScreenAI，包括一个新的Screen Annotation任务，该任务要求模型在屏幕上识别UI元素信息（即类型、位置和描述）。这些文本注释为大型语言模型（LLMs）提供了屏幕描述，使它们能够自动生成大规模的问答（QA）、UI导航和摘要训练数据集。ScreenAI仅有5B参数，却在UI和信息图表基础任务（WebSRC和MoTIF）上取得了行业领先成果，并且在Chart QA、DocVQA和InfographicVQA上相比于类似大小的模型表现出色。我们还推出了三个新数据集，以评估模型的布局理解能力和问答能力。

ScreenAI的架构基于PaLI，由多模态编码器块和自回归解码器组成。PaLI编码器使用视觉变换器（ViT）创建图像嵌入，并使用多模态编码器作为输入，该编码器接受图像和文本嵌入的组合。这种灵活的架构使ScreenAI能够解决可以重新构想为文本+图像到文本问题的视图任务。

ScreenAI模型的训练分为两个阶段：预训练阶段和微调阶段。首先，应用自监督学习自动生成数据标签，然后使用这些标签训练ViT和语言模型。在微调阶段，ViT是固定的，使用的大多数数据是由人工评估者手动标记的。