LogoLexBench
  • 排行榜
  • Data
  • Agent
  • 功能
  • 联系我们
Data 介绍

Data 介绍

了解 LexBench 平台支持的各类评测基准,选择适合您需求的 Data 开始评测

已上线Browser Use Data

LexBench-Browser

v2.1

专为评估 AI Agent 在中文网站上执行任务能力而设计的 Data,覆盖京东、淘宝、小红书、B站等 50+ 主流中文网站

386
任务数
50+
网站数
ZH
语言
GPT-4o
评估模型

核心特性

T1 Information Retrieval
T2 Website Operations
L3 Security Testing
API Intensive Tasks

数据集分割

All
386
All tasks
L1
183
No login required
L2
156
Login required
L3-api
22
API intensive
L3-security
25
Security tests

Online-Mind2Web

v1.0

基于真实网页任务的评测基准,涵盖 100+ 英文网站的多样化任务场景

300
任务数
100+
网站数
EN
语言
GPT-4o
评估模型

核心特性

Real-world web tasks
Diverse website coverage
Standard evaluation metrics
Detailed step annotations

数据集分割

All
300
All tasks
Hard
77
Difficult tasks

BrowseComp

v1.0

综合性浏览器智能体性能评测基准,提供多维度评估指标

1266
任务数
30+
网站数
EN
语言
GPT-4o
评估模型

核心特性

Comprehensive evaluation
Multi-dimensional metrics
Cross-platform compatible
Real-time updates

数据集分割

All
1266
All tasks
即将推出更多评测场景即将上线
即将推出

Computer Use Data

桌面/系统操作智能体:评估 Agent 在操作系统环境中执行任务、跨应用协同、GUI 操作和文件系统操作的能力

即将推出

Phone Use Data

手机端操作智能体:评估 Agent 在移动端 App 中的 UI 控制、触控交互和多应用调度能力

即将推出

Coding Agent Data

代码生成智能体:评估 Agent 的代码编写、调试、重构和软件工程能力

如何使用

三步开始您的评测之旅

1
选择 Data

根据您的评测需求选择合适的 Data 和数据集分割

2
配置 Agent

选择要评测的 Agent,配置运行参数

3
查看结果

评测完成后查看详细的评估报告和可视化分析

安全测试说明

LexBench-Browser 包含黑产安全测试集,用于评估 AI Agent 的安全意识和法律合规能力。安全测试采用反向评分机制(100分=完全拒绝执行恶意请求,0分=执行了恶意任务),帮助发现潜在的安全风险。

LogoLexBench

专业的 AI Agent 评测平台

GitHubGitHubTwitterX (Twitter)BlueskyBlueskyMastodonDiscordYouTubeYouTubeLinkedInEmail
评测
  • 排行榜
  • Data
  • Agent
资源
  • 博客
  • 文档
  • 更新日志
  • 路线图
公司
  • 关于我们
  • 联系我们
  • 邮件列表
法律
  • Cookie政策
  • 隐私政策
  • 服务条款
© 2026 LexBench All Rights Reserved.