查看最新评测排行榜

专业的 AI Agent 评测平台

LexBench 提供全面的智能体评测能力，支持多种 Data 和 Agent，帮助您客观评估模型在真实任务场景中的表现。

查看排行榜开始评测

免费开始使用无需信用卡实时评测结果

评测任务

支持模型

Data

愿景与规划

数字智能体评测体系

LexBench（量道测评）致力于构建覆盖多模态、跨平台、跨环境的 Agent Data 评测体系

我们当前支持 Browser Use Agent Data（浏览器操作智能体基准测试），可评估智能体在浏览器端执行自动化任务、信息检索、导航等能力。未来我们将逐步拓展到 Computer Use、Phone Use、Coding Agent、Personal Assistant 等多个领域，使 LexBench 成为行业领先的 Digital Evaluation Framework。

已支持

Browser Use

浏览器操作智能体：评估 Agent 在网页环境下的任务自动化、信息检索和导航交互能力

已支持

即将推出

Computer Use

桌面/系统操作智能体：评估 Agent 在操作系统环境中执行任务、跨应用协同、GUI 操作的能力

即将推出

Phone Use

手机端操作智能体：评估 Agent 在移动端 App 中的 UI 控制、触控交互和多应用调度能力

即将推出

Coding Agent

代码生成智能体：评估 Agent 的代码编写、调试、重构和项目管理能力

即将推出

Personal Assistant

个人助理智能体：评估 Agent 在日程管理、任务规划、信息整合等个人助理场景中的能力

LexBench 评测平台统计

平台数据

提供专业、全面的浏览器智能体评测服务

评测任务

已测模型

Data 数

覆盖网站

Top 评测结果

按通过率排序的最新评测结果

Agent / Data

通过率

任务数

分数

Claude-4-Sonnet + Agent-TARS

LexBench-Browser

314/340

92.4%

GPT-5 (Thinking) + Manus

LexBench-Browser

309/340

91.0%

Agent-TARS-v2

Online-Mind2Web

165/200

82.4%

Gemini-3-Pro + Browser-Use

LexBench-Browser

301/340

88.6%

DeepSeek-R1-0528

BrowseComp

84/100

84.2%

为什么选择 LexBench

核心功能

LexBench 提供专业的浏览器智能体评测能力，帮助您全面评估 AI Agent 在真实网页任务中的表现

多样化 Data

支持 LexBench-Browser、Online-Mind2Web、BrowseComp 等多种评测基准，覆盖中英文网站、不同任务类型和难度等级

专业评估体系

采用 GPT-4o 作为评估模型，结合多种评估策略（功能验证、界面比对、语义匹配），确保评测结果客观准确

可视化分析

提供丰富的图表展示，包括通过率趋势、任务分布、多维度对比雷达图等，直观呈现评测结果

开放排行榜

公开透明的评测排行榜，支持多维度筛选和对比，帮助您快速了解各 Agent 的性能表现

开始评测

立即开始评测您的浏览器智能体，获取详细的性能报告

快速评测数据可视化多模型对比

开始评测查看排行榜

查看最新评测排行榜

专业的 AI Agent 评测平台

LexBench 提供全面的智能体评测能力，支持多种 Data 和 Agent，帮助您客观评估模型在真实任务场景中的表现。

查看排行榜开始评测

免费开始使用无需信用卡实时评测结果

评测任务

支持模型

Data

愿景与规划

数字智能体评测体系

LexBench（量道测评）致力于构建覆盖多模态、跨平台、跨环境的 Agent Data 评测体系

已支持

Browser Use

浏览器操作智能体：评估 Agent 在网页环境下的任务自动化、信息检索和导航交互能力

已支持

即将推出

Computer Use

桌面/系统操作智能体：评估 Agent 在操作系统环境中执行任务、跨应用协同、GUI 操作的能力

即将推出

Phone Use

手机端操作智能体：评估 Agent 在移动端 App 中的 UI 控制、触控交互和多应用调度能力

即将推出

Coding Agent

代码生成智能体：评估 Agent 的代码编写、调试、重构和项目管理能力

即将推出

Personal Assistant

个人助理智能体：评估 Agent 在日程管理、任务规划、信息整合等个人助理场景中的能力

LexBench 评测平台统计

平台数据

提供专业、全面的浏览器智能体评测服务

评测任务

已测模型

Data 数

覆盖网站

Top 评测结果

按通过率排序的最新评测结果

Agent / Data

通过率

任务数

分数

Claude-4-Sonnet + Agent-TARS

LexBench-Browser

314/340

92.4%

GPT-5 (Thinking) + Manus

LexBench-Browser

309/340

91.0%

Agent-TARS-v2

Online-Mind2Web

165/200

82.4%

Gemini-3-Pro + Browser-Use

LexBench-Browser

301/340

88.6%

DeepSeek-R1-0528

BrowseComp

84/100

84.2%

为什么选择 LexBench

核心功能

LexBench 提供专业的浏览器智能体评测能力，帮助您全面评估 AI Agent 在真实网页任务中的表现

多样化 Data

支持 LexBench-Browser、Online-Mind2Web、BrowseComp 等多种评测基准，覆盖中英文网站、不同任务类型和难度等级

专业评估体系

采用 GPT-4o 作为评估模型，结合多种评估策略（功能验证、界面比对、语义匹配），确保评测结果客观准确

可视化分析

提供丰富的图表展示，包括通过率趋势、任务分布、多维度对比雷达图等，直观呈现评测结果

开放排行榜

公开透明的评测排行榜，支持多维度筛选和对比，帮助您快速了解各 Agent 的性能表现

开始评测

立即开始评测您的浏览器智能体，获取详细的性能报告

快速评测数据可视化多模型对比

开始评测查看排行榜