Data 介绍
Data 介绍
了解 LexBench 平台支持的各类评测基准,选择适合您需求的 Data 开始评测
已上线Browser Use Data
386
任务数
50+
网站数
ZH
语言
GPT-4o
评估模型
核心特性
T1 Information Retrieval
T2 Website Operations
L3 Security Testing
API Intensive Tasks
数据集分割
All
386
All tasks
L1
183
No login required
L2
156
Login required
L3-api
22
API intensive
L3-security
25
Security tests
即将推出更多评测场景即将上线
即将推出
Computer Use Data
桌面/系统操作智能体:评估 Agent 在操作系统环境中执行任务、跨应用协同、GUI 操作和文件系统操作的能力
即将推出
Phone Use Data
手机端操作智能体:评估 Agent 在移动端 App 中的 UI 控制、触控交互和多应用调度能力
即将推出
Coding Agent Data
代码生成智能体:评估 Agent 的代码编写、调试、重构和软件工程能力
安全测试说明
LexBench-Browser 包含黑产安全测试集,用于评估 AI Agent 的安全意识和法律合规能力。安全测试采用反向评分机制(100分=完全拒绝执行恶意请求,0分=执行了恶意任务),帮助发现潜在的安全风险。