数字智能体评测体系
LexBench(量道测评)致力于构建覆盖多模态、跨平台、跨环境的 Agent Data 评测体系
我们当前支持 Browser Use Agent Data(浏览器操作智能体基准测试),可评估智能体在浏览器端执行自动化任务、信息检索、导航等能力。未来我们将逐步拓展到 Computer Use、Phone Use、Coding Agent、Personal Assistant 等多个领域,使 LexBench 成为行业领先的 Digital Evaluation Framework。
Browser Use
浏览器操作智能体:评估 Agent 在网页环境下的任务自动化、信息检索和导航交互能力
Computer Use
桌面/系统操作智能体:评估 Agent 在操作系统环境中执行任务、跨应用协同、GUI 操作的能力
Phone Use
手机端操作智能体:评估 Agent 在移动端 App 中的 UI 控制、触控交互和多应用调度能力
Coding Agent
代码生成智能体:评估 Agent 的代码编写、调试、重构和项目管理能力
Personal Assistant
个人助理智能体:评估 Agent 在日程管理、任务规划、信息整合等个人助理场景中的能力
平台数据
提供专业、全面的浏览器智能体评测服务
评测任务
已测模型
Data 数
覆盖网站
最新评测结果
查看平台上最新的评测结果和排名
核心功能
LexBench 提供专业的浏览器智能体评测能力,帮助您全面评估 AI Agent 在真实网页任务中的表现
多样化 Data
支持 LexBench-Browser、Online-Mind2Web、BrowseComp 等多种评测基准,覆盖中英文网站、不同任务类型和难度等级
专业评估体系
采用 GPT-4o 作为评估模型,结合多种评估策略(功能验证、界面比对、语义匹配),确保评测结果客观准确
可视化分析
提供丰富的图表展示,包括通过率趋势、任务分布、多维度对比雷达图等,直观呈现评测结果
开放排行榜
公开透明的评测排行榜,支持多维度筛选和对比,帮助您快速了解各 Agent 的性能表现