LogoLexBench
  • 排行榜
  • Data
  • Agent
  • 功能
  • 联系我们
查看最新评测排行榜

专业的 AI Agent 评测平台

LexBench 提供全面的智能体评测能力,支持多种 Data 和 Agent,帮助您客观评估模型在真实任务场景中的表现。

查看排行榜开始评测
免费开始使用无需信用卡实时评测结果
0+
评测任务
0+
支持模型
0
Data
愿景与规划

数字智能体评测体系

LexBench(量道测评)致力于构建覆盖多模态、跨平台、跨环境的 Agent Data 评测体系

我们当前支持 Browser Use Agent Data(浏览器操作智能体基准测试),可评估智能体在浏览器端执行自动化任务、信息检索、导航等能力。未来我们将逐步拓展到 Computer Use、Phone Use、Coding Agent、Personal Assistant 等多个领域,使 LexBench 成为行业领先的 Digital Evaluation Framework。

已支持

Browser Use

浏览器操作智能体:评估 Agent 在网页环境下的任务自动化、信息检索和导航交互能力

已支持
即将推出

Computer Use

桌面/系统操作智能体:评估 Agent 在操作系统环境中执行任务、跨应用协同、GUI 操作的能力

即将推出

Phone Use

手机端操作智能体:评估 Agent 在移动端 App 中的 UI 控制、触控交互和多应用调度能力

即将推出

Coding Agent

代码生成智能体:评估 Agent 的代码编写、调试、重构和项目管理能力

即将推出

Personal Assistant

个人助理智能体:评估 Agent 在日程管理、任务规划、信息整合等个人助理场景中的能力

LexBench 评测平台统计

平台数据

提供专业、全面的浏览器智能体评测服务

0+

评测任务

01
0+

已测模型

02
0

Data 数

03
0+

覆盖网站

04
最新评测结果

最新评测结果

查看平台上最新的评测结果和排名

Top 评测结果

按通过率排序的最新评测结果

#
Agent / Data
通过率
任务数
分数
Claude-4-Sonnet + Agent-TARS
LexBench-Browser
314/340
92.4%
GPT-5 (Thinking) + Manus
LexBench-Browser
309/340
91.0%
Agent-TARS-v2
Online-Mind2Web
165/200
82.4%
4
Gemini-3-Pro + Browser-Use
LexBench-Browser
301/340
88.6%
5
DeepSeek-R1-0528
BrowseComp
84/100
84.2%
为什么选择 LexBench

核心功能

LexBench 提供专业的浏览器智能体评测能力,帮助您全面评估 AI Agent 在真实网页任务中的表现

01

多样化 Data

支持 LexBench-Browser、Online-Mind2Web、BrowseComp 等多种评测基准,覆盖中英文网站、不同任务类型和难度等级

02

专业评估体系

采用 GPT-4o 作为评估模型,结合多种评估策略(功能验证、界面比对、语义匹配),确保评测结果客观准确

03

可视化分析

提供丰富的图表展示,包括通过率趋势、任务分布、多维度对比雷达图等,直观呈现评测结果

04

开放排行榜

公开透明的评测排行榜,支持多维度筛选和对比,帮助您快速了解各 Agent 的性能表现

开始评测

开始评测

立即开始评测您的浏览器智能体,获取详细的性能报告

快速评测数据可视化多模型对比
开始评测查看排行榜
LogoLexBench

专业的 AI Agent 评测平台

GitHubGitHubTwitterX (Twitter)BlueskyBlueskyMastodonDiscordYouTubeYouTubeLinkedInEmail
评测
  • 排行榜
  • Data
  • Agent
资源
  • 博客
  • 文档
  • 更新日志
  • 路线图
公司
  • 关于我们
  • 联系我们
  • 邮件列表
法律
  • Cookie政策
  • 隐私政策
  • 服务条款
© 2026 LexBench All Rights Reserved.