阿里通义开源网络智能体 WebSailor，登顶开源网络智能体榜单

人阅读 2025-07-07 17:57:50

感谢网友 GreatMOLA 的线索投递！

7 月 7 日消息，今日阿里云宣布，通义正式开源网络智能体 WebSailor，该智能体具备强大的推理和检索能力，发布后在智能体评测集 BrowseComp 上登顶开源网络智能体榜单。注意到，目前 WebSailor 的构建方案及部分数据集已在 Github 开源。

据阿里云介绍，WebSailor 网络智能体可以应用复杂场景下的检索任务，对于模糊问题可迅速在不同的网页中进行快速检索并推理验证，从而在海量信息中通过严密的多步推理和交叉验证最终得出检索答案。

同时，针对该智能体的训练，通义实验室团队采用了整套创新的 post-training 方法，大幅提升了该开源模型在复杂网页推理任务上的表现，在高难度智能体评测集 BrowseComp 上，WebSailor 的成绩超越了 DeepSeek R1、Grok-3 等模型和智能体，一举登顶开源网络智能体榜单。

开源地址：

https://github.com/Alibaba-NLP/WebAgent

为了验证 WebSailor 的实验效果，通义实验室在多个 benchmark 评测集上进行实测。

BrowseComp 是 Open AI 开源的浏览器检索效果评测集，旨在评测大模型和智能体的检索性能，发布数月以来，该评测集包含了 1266 个高难度问题，是目前难度最高的评测集之一，业界尚无开源系统取得接近闭源模型的成绩。

英文版和中文版 BrowseComp 评测集的实测结果显示，WebSailor 跨越了开源和闭源系统之间的鸿沟，WebSailor-32B、WebSailor-72B 不仅在开源模型和 Agent 阵营里实现了断层领先，甚至超越了 DeepSeek R1、Grok-3 等闭源模型，仅次于闭源的 OpenAI DeepResearch。

尽管 WebSailor 仅基于高难度数据训练，但在聚焦普通任务 SimpleQA 的数据集上，WebSailor 的表现也超越了其它方法，展现出极强的兼容性和有效性，验证了 WebSailor 方法的泛化能力。

阿里云称，WebSailor 提供了一个通用的 workflow，可借鉴到其他领域的问题中。它强调的“高难度任务合成小规模冷启动高效 RL 优化”的组合拳策略，具有很强的普适性。未来，开源社区可以参考 WebSailor 的思路，去攻克更多类似“超越人类能力”的任务 —— 比如开放领域的复杂推理问答、学术知识发现，甚至跨模态的信息整合等。

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，所有文章均包含本声明。