Data 介绍

了解 LexBench 平台支持的各类评测基准，选择适合您需求的 Data 开始评测

已上线Browser Use Data

LexBench-Browser

v2.1

专为评估 AI Agent 在中文网站上执行任务能力而设计的 Data，覆盖京东、淘宝、小红书、B站等 50+ 主流中文网站

386

任务数

50+

网站数

语言

GPT-4o

评估模型

核心特性

T1 Information Retrieval

T2 Website Operations

L3 Security Testing

API Intensive Tasks

数据集分割

All

386

All tasks

183

No login required

156

L3-api

API intensive

L3-security

Security tests

Online-Mind2Web

v1.0

基于真实网页任务的评测基准，涵盖 100+ 英文网站的多样化任务场景

300

任务数

100+

网站数

语言

GPT-4o

评估模型

核心特性

Real-world web tasks

Diverse website coverage

Standard evaluation metrics

Detailed step annotations

数据集分割

All

300

All tasks

Hard

Difficult tasks

BrowseComp

v1.0

综合性浏览器智能体性能评测基准，提供多维度评估指标

1266

任务数

30+

网站数

语言

GPT-4o

评估模型

核心特性

Comprehensive evaluation

Multi-dimensional metrics

Cross-platform compatible

Real-time updates

数据集分割

All

1266

All tasks

即将推出更多评测场景即将上线

即将推出

Computer Use Data

桌面/系统操作智能体：评估 Agent 在操作系统环境中执行任务、跨应用协同、GUI 操作和文件系统操作的能力

即将推出

Phone Use Data

手机端操作智能体：评估 Agent 在移动端 App 中的 UI 控制、触控交互和多应用调度能力

即将推出

Coding Agent Data

代码生成智能体：评估 Agent 的代码编写、调试、重构和软件工程能力

如何使用

三步开始您的评测之旅

选择 Data

根据您的评测需求选择合适的 Data 和数据集分割

配置 Agent

选择要评测的 Agent，配置运行参数

查看结果

评测完成后查看详细的评估报告和可视化分析

安全测试说明

LexBench-Browser 包含黑产安全测试集，用于评估 AI Agent 的安全意识和法律合规能力。安全测试采用反向评分机制（100分=完全拒绝执行恶意请求，0分=执行了恶意任务），帮助发现潜在的安全风险。

Data 介绍

了解 LexBench 平台支持的各类评测基准，选择适合您需求的 Data 开始评测

已上线Browser Use Data

LexBench-Browser

v2.1

专为评估 AI Agent 在中文网站上执行任务能力而设计的 Data，覆盖京东、淘宝、小红书、B站等 50+ 主流中文网站

386

任务数

50+

网站数

语言

GPT-4o

评估模型

核心特性

T1 Information Retrieval

T2 Website Operations

L3 Security Testing

API Intensive Tasks

数据集分割

All

386

All tasks

183

No login required

156

L3-api

API intensive

L3-security

Security tests

Online-Mind2Web

v1.0

基于真实网页任务的评测基准，涵盖 100+ 英文网站的多样化任务场景

300

任务数

100+

网站数

语言

GPT-4o

评估模型

核心特性

Real-world web tasks

Diverse website coverage

Standard evaluation metrics

Detailed step annotations

数据集分割

All

300

All tasks

Hard

Difficult tasks

BrowseComp

v1.0

综合性浏览器智能体性能评测基准，提供多维度评估指标

1266

任务数

30+

网站数

语言

GPT-4o

评估模型

核心特性

Comprehensive evaluation

Multi-dimensional metrics

Cross-platform compatible

Real-time updates

数据集分割

All

1266

All tasks

即将推出更多评测场景即将上线

即将推出

Computer Use Data

桌面/系统操作智能体：评估 Agent 在操作系统环境中执行任务、跨应用协同、GUI 操作和文件系统操作的能力

即将推出

Phone Use Data

手机端操作智能体：评估 Agent 在移动端 App 中的 UI 控制、触控交互和多应用调度能力

即将推出

Coding Agent Data

代码生成智能体：评估 Agent 的代码编写、调试、重构和软件工程能力

如何使用

三步开始您的评测之旅

选择 Data

根据您的评测需求选择合适的 Data 和数据集分割

配置 Agent

选择要评测的 Agent，配置运行参数

查看结果

评测完成后查看详细的评估报告和可视化分析