ScreenAI:用于 UI 和视觉语言理解的视觉语言模型
Google 近期发布了一款名为ScreenAI的视觉-语言模型,它专门用于理解和交互用户界面(UI)和信息图表(如图表、图解和表格),并在基于UI和信息图表的任务上取得了行业领先的成果。该模型的发布伴随着三个新数据集的推出:Screen Annotation(用于评估模型布局理解能力)、ScreenQA Short(短问答)和Complex ScreenQA(复杂问答),这些数据集旨在更全面地评估模型的问答能力。
用户界面和信息图表在人际交流和人机交互中扮演着重要角色,它们通过丰富和互动的用户体验促进了信息的传递。UI和信息图表共享类似的设计原则和视觉语言(例如图标和布局),这提供了构建一个单一模型来理解、推理和与这些接口交互的机会。然而,由于它们的复杂性和多样化的呈现格式,信息图表和UI提出了独特的建模挑战。
为了应对这些挑战,我们提出了“ScreenAI:一个用于UI和信息图表理解的视觉-语言模型”。ScreenAI在PaLI架构的基础上进行了改进,采用了pix2struct中的灵活补丁策略。我们在一个独特的数据集和任务混合上训练ScreenAI,包括一个新的Screen Annotation任务,该任务要求模型在屏幕上识别UI元素信息(即类型、位置和描述)。这些文本注释为大型语言模型(LLMs)提供了屏幕描述,使它们能够自动生成大规模的问答(QA)、UI导航和摘要训练数据集。ScreenAI仅有5B参数,却在UI和信息图表基础任务(WebSRC和MoTIF)上取得了行业领先成果,并且在Chart QA、DocVQA和InfographicVQA上相比于类似大小的模型表现出色。我们还推出了三个新数据集,以评估模型的布局理解能力和问答能力。
ScreenAI的架构基于PaLI,由多模态编码器块和自回归解码器组成。PaLI编码器使用视觉变换器(ViT)创建图像嵌入,并使用多模态编码器作为输入,该编码器接受图像和文本嵌入的组合。这种灵活的架构使ScreenAI能够解决可以重新构想为文本+图像到文本问题的视图任务。
ScreenAI模型的训练分为两个阶段:预训练阶段和微调阶段。首先,应用自监督学习自动生成数据标签,然后使用这些标签训练ViT和语言模型。在微调阶段,ViT是固定的,使用的大多数数据是由人工评估者手动标记的。