【大模型系列】MultiUI(2024.11)

先基于text-based LLMs获取网页的accessibility tree(辅助功能树，)，然后再与网页截图一起作为多模态数据，训练多模态模型。公开了MultiUI数据集，从1M网页中收集了7.3M的样本，包含多种UI任务（3类，9种任务）和界面。

kabuto_hui

1263人浏览 · 2025-01-02 22:19:34

kabuto_hui · 2025-01-02 22:19:34 发布

Paper：https://arxiv.org/pdf/2410.13824
Github：https://neulab.github.io/MultiUI/
Author：Junpeng Liu et al., 卡内基梅隆

核心1： 先基于text-based LLMs获取网页的accessibility tree(辅助功能树，https://200t.w3cschool.cn/mdn_web/mdn-auxiliary-function-tree.html)，然后再与网页截图一起作为多模态数据，训练多模态模型。
核心2： 公开了MultiUI数据集，从1M网页中收集了7.3M的样本，包含多种UI任务（3类，9种任务）和界面

1 模型结构

使用Llama-3-70b-Instruct来管理网页：识别有问题的内容如成人、赌博、暴力、歧视等
任务提取：Llama-3-70b-Instruct、GPT-4o mini和基于规则的方法来提取3类任务：视觉理解和推理、文本识别和grounding任务
对于每个任务，使用被GPT-4o处理过的不同指令模板来生成任务样本

1.1 数据集构建

利用辅助功能树和现成的LLM来构建数据自动化收集管道，主要分为4个步骤：

原始网页数据抓取（raw website data scraping）
网页管理（web curation）
任务提取（task extraction）
指令构建（instruction construction）

1.1.1 原始网页数据抓取

构建原始网页数据集，包含：

HTML/CSS
高分辨率的屏幕截图
辅助功能树：与原始HTML相比，侧重于最重要的视觉元素如按钮、链接和标题

网站整体屏幕截图肯定是高大于宽的，文章采用随机宽高比来截图，用来模拟网页在Win10(0.5~1.5)和iPhone12 Pro(1.5~2.5)上渲染。

URL：来源于FineWeb
工具：playwright

1.1.2 网页管理

使用一个额外的模型Llama-3-70B-Instruct来分析网站的辅助功能树，来识别有问题的内容如成人、暴力、赌博、歧视、网络错误(403 forbidden, 503 bad gateway)等，有问题的数据被删除掉。使用的提示词如下：

1.1.3 任务提取

构建了一组对于web交互至关重要的任务：

视觉理解和推理：提高模型描述网页整体结构和特定视觉元素识别的能力，同时增强问答和动作预测的能力
- Webpage Captioning：理解和总结网页的整体结构和内容
- Webpage QA：回答有关网页种非图像内容的问题
- Embedding Image Caption：描述web页面种得嵌入图像
- Embedding Image QA：回答嵌入图像的相关问题
- Action Prediction：动作预测，预测点击特定元素的结果
文本识别
- Element OCR：识别超过20个单词的元素，然后构造OCR任务，每个任务包含屏幕截图和文本的bounding box信息
- Heading OCR：侧重于识别和提取标题
grounding
- Action Grounding：预测响应特定指定的点击位置
- Element Grounding：根据元素的文本描述识别元素的位置

构建提示词如下：

webpage captions

webpage QA paris

Embedded Image QA samples

Action Grounding

Action prediction

1.1.4 构建指令模板

针对每个任务，构建多种指令模板，首先构造详细的任务描述和初始示例模板，使用GPT-4o构建200个不同的提示词模板。

2 训练细节

模型结构：
- LLM：Qwen2-7B-Instruct
- Visual encoder：Siglip
训练数据
- LLaVA1.6
- MultiUI
高分辨率图像处理方式：动态分辨率策略（动态切片+全图输入提供全局信息）
训练策略：
- Stage1：GUI Knowledge Learning，在95%的MultiUI数据上进行微调，增强web/UI相关的理解能力
- Stage2：Visual Instruction Tuning，视觉指令微调，使用LLaVA1.6+5%的MultiUI

3 指标

3.1 GUI understanding and grounding

3.2 GUI agent task

3.3 General multimodal task

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

火山引擎 ADG 社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

火山引擎 ADG 社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla