WebVoyager：基于大型多模态模型构建端到端 Web 智能体

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

随着 ChatGPT、GPT-4 等大型语言模型（LLM）的快速发展，基于 LLM 的自主智能体在复杂任务执行方面展现出巨大潜力。研究者们开始探索如何让 LLM 驱动的智能体自主完成网页浏览任务，比如在 Amazon 上搜索商品、在 Booking 上预订酒店等。

然而，现有的 Web 智能体面临两个核心问题：

现有的 Web 智能体（如 WebGPT、Mind2Web 等）大多仅依赖纯文本信息（HTML 源码、DOM 树、可访问性树等）来理解网页。但真实的网页是渲染后的视觉页面——它们本身就是为人类视觉感知而设计的，包含直观的布局、图标、按钮等 UI 元素。仅依赖冗长的 HTML 文本不仅信息有损，还可能让模型陷入处理复杂文本结构的困境。

现有的评估基准（如 Mind2Web）主要采用逐步（stepwise）评估或离线（offline）评估模式，存在根本性缺陷：

依赖"黄金轨迹"：评估时要求智能体严格遵循预定义的标准操作序列，逐步检查每个动作是否与标准一致。但在真实的 Web 任务中，完成同一任务往往存在多条合理路径——比如在 Amazon 搜索商品，可以通过搜索栏输入，也可以通过分类导航层层点进去，两种方式都是有效的，但"黄金轨迹"只记录其中一种。
无法端到端评估：逐步评估只关注"过程是否与标准一致"，而不关注"最终结果是否正确"。一个采用了不同但同样有效策略的智能体会被错误地判定为失败。
人工评估不可扩展：虽然人工评估能准确判断任务是否完成，但成本高、效率低，难以支撑大规模的智能体评估需求。

因此，该领域迫切需要一种端到端的、面向最终结果的、可自动化扩展的评估方案。

WebVoyager 正是为了解决上述两个问题而提出的。 它不仅构建了多模态智能体本身，还同时提出了一套完整的评估体系——包括评估基准数据集的构建方法、评估指标的定义，以及基于 GPT-4V 的自动评估协议。

WebVoyager 是一个由大型多模态模型（LMM）驱动的 Web 智能体，其核心思路是像人类一样浏览网页——同时利用视觉（截图）和文本（网页元素）信息，在真实网站上自主完成用户指令。

WebVoyager 整体工作流

图1：WebVoyager 整体工作流程。用户发送查询后，智能体通过观察（截图+文本）→ 思考 → 行动的循环，自主在真实网站上完成任务并返回结果。

与 WebArena 等工作在本地部署网站不同，WebVoyager 使用 Selenium 构建自动化浏览器环境，直接与真实的开放互联网交互。这意味着智能体必须面对真实世界的各种挑战：浮动广告、弹窗、页面动态更新等。虽然增加了难度，但这种设计真正反映了实际应用场景。

WebVoyager 的观察空间由两部分构成：

（1）网页截图（视觉信号）

智能体以网页截图作为主要输入源，这避免了处理冗长的 HTML DOM 树或可访问性树所带来的信息过载问题。

关键创新在于借鉴了 Set-of-Mark Prompting 的思想：在截图上为交互元素叠加带有数字标签的边界框。具体来说，使用 GPT-4V-ACT（一个基于规则的 JavaScript 工具）提取网页中的交互元素（按钮、输入框、链接等），并在截图上对应位置绘制黑色边框，在左上角标注数字编号。

标注后的网页截图
图2：带有数字标签的网页截图示例。每个可交互元素（按钮、输入框、链接等）都被黑色边框圈出并标注了数字编号，帮助模型精准定位需要操作的元素。

这一设计的优势：

不需要额外的目标检测模型（不同于 SoM 原始方法）
基于规则提取，高效且稳定
统一使用黑色边框和标签，实验表明比多色方案效果更好

（2）文本辅助信息（文本信号）

除截图外，智能体还接收交互元素的文本描述，包括：

元素内嵌的文本内容
元素类型（如、等）
aria-label 属性中的注释文字

这一设计弥补了纯视觉在文本密集型页面上的不足。

WebVoyager 采用类似 ReAct Prompting 的交互范式。在每个时间步，模型接收上下文（包含历史动作、历史观察和当前观察），然后输出：

Thought（思考）：自然语言推理，总结当前观察并规划下一步
Action（动作）：具体的操作指令

为防止过长历史导致模型混乱，WebVoyager 采用了上下文裁剪策略：仅保留最近 3 步的观察（截图），但保留完整的思考和动作历史。

WebVoyager 定义了 7 种模拟人类浏览行为的动作：

动作格式说明 Click 点击指定元素 Input 在输入框中清除旧内容并输入新内容，自动按回车 Scroll 滚动页面或特定区域 Wait 等待页面加载 Back 返回上一页 Jump to Search Engine 跳转到搜索引擎重新开始 Answer 任务完成，返回最终答案

其中 Jump to Search Engine 是一个亮点设计——当智能体在某个网站上陷入困境时，可以跳回 Google 搜索重新出发，有效避免了"卡死"。

Apple 网站任务轨迹

图3：一个完整的任务执行轨迹。任务："在 Apple 网站搜索 iPad 的 Smart Folio 配件，查看邮编 90038 附近最近的取货点。"智能体经过 6 步交互，最终找到答案"Apple Tower Theatre"。

在 15 个网站的 643 个任务上的实验结果有力地验证了上述设计的有效性：

主要实验结果

表1：各网站任务成功率。WebVoyager（多模态）整体达到 59.1%，显著优于纯文本版本 WebVoyager_Text-only（40.1%）和 GPT-4 All Tools（30.8%）。

关键发现：

WebVoyager（59.1%）大幅超越 GPT-4 All Tools（30.8%），说明直接与网站交互远优于依赖搜索引擎抓取的间接方式
WebVoyager（59.1%）显著优于 Text-only 版本（40.1%），验证了视觉信息的重要价值
在视觉元素丰富的网站（如 Booking、Google Flights）上，多模态版本优势尤为明显——这些网站包含日历、地图等复杂交互组件，纯文本的可访问性树难以描述
而在文本密集型网站（如 Allrecipes、Cambridge Dictionary）上，Text-only 版本偶尔表现接近甚至略优，说明文本和视觉两种模态对于通用 Web 智能体都不可或缺

多骨干模型实验进一步证实了方法的通用性：

不同骨干模型的成功率

表2：使用不同 LMM 作为骨干模型的 WebVoyager 成功率。GPT-4V、Claude-3-Opus 和 GPT-4o 的表现相近，说明 WebVoyager 框架具有良好的模型通用性。

WebVoyager 采用 Task Success Rate（任务成功率） 作为核心评估指标，其定义为：

在端到端任务完成的场景下，智能体成功完成任务的比例。 仅判断最终结果是否正确，不考虑中间步骤是否最优。

这一指标的设计哲学与传统逐步评估（stepwise evaluation）形成鲜明对比：

维度传统逐步评估 Task Success Rate 评估对象每一步动作是否与"黄金轨迹"一致最终任务是否完成对多路径的容忍不容忍——偏离标准路径即为失败完全容忍——只要结果正确即为成功适用场景离线、静态数据集在线、真实网站交互

由于基准中大多数问题是开放式的，没有唯一标准答案，因此 WebVoyager 首先建立了人工评估作为"金标准"：

评估输入：向人工评估者提供智能体与网页交互的完整轨迹（所有截图和所有动作）
评估输出：二元判断（成功/失败）——智能体是否成功完成了任务
多人标注：对 300 个任务的子集，邀请 3 位标注者分别独立判断每条轨迹，以衡量标注者间一致性
标注者一致性：标注者之间的 Fleiss' Kappa = 0.7，属于"实质性一致"（substantial agreement），说明人工评估本身具有较高的可靠性

人工评估虽然准确但不可扩展。WebVoyager 提出使用 GPT-4V 作为自动评估器，模拟人类评审行为。评估器接收三部分输入：

Web Task Instruction（任务指令）：用户的原始查询，明确需要完成的在线活动
Result Screenshots（结果截图）：智能体执行轨迹中最后张截图，作为任务完成的视觉证据
Result Response（文本回复）：智能体返回的最终文本答案

评估器基于这些信息判断任务是否成功完成，输出或。

自动评估器的 Prompt 中明确了几个关键设计原则：

评估器不需要自己去浏览网页，只需根据提供的截图和回复做出判断
不应基于截图中未呈现的信息做假设——必须忠于视觉证据
任务可能包含多个子任务，任何子任务未完成都应判为失败
当截图与文本回复产生矛盾时，以截图内容为准（因为截图是真实的，而文本回复由 LLM 生成，可能存在幻觉）

自动评估 Prompt

图4：GPT-4V 自动评估器的系统提示。明确指示评估器不需要自己浏览网页，只需根据截图和回复判断任务是否完成。

自动评估器的核心问题是：它的判断与人类判断有多一致？ 论文通过控制变量实验来验证：

GPT-4V 与人工的一致性

表3：GPT-4V 评估器与人工评审的一致性。k 为提供给评估器的截图数量。

关键结论：

截图数量 k 对评估质量有显著影响：从 k=1（仅最后 1 张截图）到使用完整轨迹，Agreement 从 75.3% 提升到 85.3%，Kappa 从 0.51 提升到 0.70。这说明完整的交互历史对准确判断任务完成情况至关重要。
使用完整轨迹时，GPT-4V 评估器与人工评审的 Kappa 达到 0.70（实质性一致），与人类标注者之间的 Fleiss' Kappa（0.7）完全持平——即 GPT-4V 评估器的可靠性已经达到人类水平。
论文还对比了使用 Claude-3-Opus（Kappa=0.6）和 GPT-4o（Kappa=0.72）作为评估器的效果。GPT-4o 略优于 GPT-4V，但论文发现 GPT-4o 倾向于宽松评判，GPT-4V 倾向于严格评判，而 Claude-3-Opus 倾向于偏向自己的结果。最终论文选择 GPT-4V 作为默认评估器。

从日常生活中选取 15 个代表性网站，覆盖多个领域：

类别网站购物/商品 Amazon, Apple 旅行/预订 Booking, Google Flights, Google Map 知识/学术 ArXiv, Cambridge Dictionary, Wolfram Alpha 新闻/媒体 BBC News, ESPN 搜索引擎 Google Search 社区/代码 GitHub, Huggingface 教育 Coursera 美食 Allrecipes

网站选择遵循两个原则：一是多样性，覆盖购物、旅行、学术、新闻、教育等多个日常场景；二是可访问性，由于技术限制，排除了需要登录（login）或 CAPTCHA 验证的网站。此外，Google Search 作为通用搜索引擎被纳入，使得框架可以作为任何网站任务的起点。

数据构建流程

图5：三阶段数据构建流程。Step 1：人工编写种子任务；Step 2：GPT-4 基于种子生成新任务并人工筛选；Step 3：迭代扩展任务池并在线验证答案可用性。

整个数据构建采用 Self-Instruct 方法（Wang et al., 2022）结合人工验证，分三个阶段：

种子阶段（Step 1）：人工为 3-5 个网站编写初始任务，部分从 Mind2Web 中采样并改写（涉及 Google Flights、Google Map、Google Search、Booking 和 Wolfram Alpha），这些手工任务进入 Task Pool 作为后续生成的种子。
扩展阶段（Step 2）：以种子任务为 in-context 示例，用 GPT-4 Turbo 为每个网站生成约 100 个新任务（20 轮迭代）。然后人工逐条审核每个生成任务：验证任务质量、确保答案确实可以在对应网站上找到，必要时改写任务，最终将通过审核的任务加入 Task Pool 作为新的种子。
迭代生成阶段（Step 3）：从不断扩大的 Task Pool 中采样更多样化的 in-context 示例，继续让 GPT-4 生成新任务，并在线验证答案可用性。这一阶段不再做人工改写，但会检查任务的重复度和答案的可获取性。

注意：论文中并未提供 Step 2 和 Step 3 中用于驱动 GPT-4 Turbo 生成任务的具体 prompt 模板。论文仅描述了"从 Task Pool 采样 in-context examples 后提示 GPT-4 Turbo 生成新任务"的方法流程，而附录中只包含了智能体执行任务的 System Prompt（Figure 7）和自动评估器的 System Prompt（Figure 8），不包含数据生成 prompt。相关 prompt 可能在论文开源的代码仓库中（github.com/MinorJerry/WebVoyager）。

最终收集了 643 个任务（每个网站 40+ 个）。

任务多样性验证：使用 all-mpnet-base-v2 模型计算 643 个任务之间的成对语义相似度。在总共 206,403 对任务中：仅 49 对相似度 > 0.8，140 对相似度在 0.7-0.8 之间（均经人工确认可接受），99.68% 的任务对相似度低于 0.6，充分证明了数据集的多样性和 Self-Instruct 方法的鲁棒性。

收集完所有任务后，需要为每个任务标注答案。由于 Web 任务的开放性，答案标注面临独特的挑战。论文将答案分为两类：

（1）Golden（黄金答案）：有确定唯一正确答案的任务。例如 "亚马逊上 PS4 的 2 年保护计划价格是多少？"——答案是具体的价格。占总任务的 22.3%。

（2）Possible（可能答案）：无法给出唯一标准答案的任务。论文列举了三种情况：

开放式任务：答案难以精确匹配，如摘要类任务
多答案任务：多个答案都能满足要求，且不可能穷举所有答案，因此只提供部分列举
时变性任务：答案与实时信息相关（如航班价格、新闻头条），在不同时间查询可能得到不同答案

对于 Possible 类答案，论文提供尽可能全面的答案列表，并认为这些答案在短期内是稳定的。这一分类设计直接影响了评估的灵活性——评估器（无论人工还是自动）在判断时，不是做简单的字符串匹配，而是综合判断智能体的回答是否在合理范围内。

除了自建基准外，WebVoyager 还在两个外部基准上进行了评估：

GAIA 基准（90 个 Web 浏览任务）：

GAIA 结果

图6：在 GAIA Level 1 和 Level 2 上的成功率。WebVoyager 在两个级别上均大幅领先 GPT-4 All Tools 和 Text-only 版本。

Level 1：WebVoyager 达到 38.5%，是 GPT-4 All Tools（23.1%）的近两倍
Level 2：WebVoyager 达到 15.6%，同样领先

SeeAct 基准（50 个交互式 Web 任务）：

WebVoyager 成功率 30%，SeeAct **智能体为 26%

影响因素分析

图7：各网站的平均轨迹长度、平均交互元素数量与任务成功率的关系。页面越简单（交互元素少、轨迹短），成功率越高。

两个关键观察：

轨迹长度越长（任务越复杂），成功率越低
交互元素数量越多（页面越复杂），成功率越低
简单网站（如 Wolfram Alpha、Apple）位于图的左下方，成功率较高；复杂网站（如 Booking、ESPN）位于右上方，成功率受限

对 300 个失败案例的人工分析揭示了四类主要错误：

错误类型占比说明 导航卡死 (Navigation Stuck) 44.4% 搜索不够精确导致结果偏离；滚动区域判断错误；步数耗尽 视觉定位错误 (Visual Grounding Issue) 24.8% 误识别字符/公式；选择了邻近错误元素；混淆日历数字与标签 幻觉 (Hallucination) 21.8% 忽略部分任务要求返回不完整答案；误入错误路径却不自知 提示对齐问题 (Prompt Misalignment) 9.0% 输出格式不可解析；过早终止任务

导航卡死是最大瓶颈，几乎占据了一半的失败原因，说明在复杂网页环境中规划高效的探索路径仍是重大挑战。

GPT-4 (All Tools) 依赖 Bing 搜索获取网页信息，无法直接访问如 Amazon、Apple 等网站进行搜索、点击、排序等操作，大大限制了任务完成能力。WebVoyager 的直接交互方式更接近人类的真实浏览行为。

Web 导航任务要求模型处理高分辨率截图中的细粒度信息（小号字体、密集按钮等），但当时主流开源 LMM（如 LLaVA）将图像分辨率降至 224x224 或 336x336，导致文字不可辨认。此外，15 步交互轨迹需要约 7000+ token 的上下文，超出多数开源模型的上下文窗口。

WebVoyager 提出了一套完整的多模态 Web 智能体方案，其三大贡献分别是：

多模态智能体架构：首次系统地将截图视觉信息与文本元素信息结合，在真实开放网络上完成端到端 Web 任务，整体成功率 59.1%，大幅超越纯文本（40.1%）和 GPT-4 All Tools（30.8%）
完整的评估体系：
- 评估指标：定义了面向最终结果的 Task Success Rate，摒弃传统逐步匹配范式，容忍多路径达成
- 评估数据：通过 Self-Instruct 半自动方法构建 643 个多样化任务（覆盖 15 个真实网站），并设计 Golden/Possible 双轨答案标注机制，适应 Web 任务的开放性和时变性
- 自动评估协议：利用 GPT-4V 模拟人类评估行为，与人工评审达到 85.3% 一致性（Kappa=0.70，与人类标注者间的一致性持平），为大规模评估提供了可扩展方案
系统性的实验分析：不仅给出了多模态 vs 纯文本的对比，还深入分析了网站复杂度对成功率的影响、四类典型错误的分布，以及不同评估器（GPT-4V、Claude-3-Opus、GPT-4o）之间的偏差特性，为后续研究提供了清晰的改进方向

WebVoyager 的工作清晰地表明：要构建通用的 Web 智能体，视觉和文本两种模态缺一不可。同时，其提出的”数据构建 → 指标定义 → 自动评估”三位一体的评估框架，为 Web 智能体领域建立了可复用的评估基础设施。

注：本文中的图片均截取自原论文 WebVoyager: Building an End-to-End Web Agent with Large Multimodal Models。

WebVoyager：基于大型多模态模型构建端到端 Web 智能体

相关推荐