为什么选择 LexBench
核心功能
LexBench 提供专业的浏览器智能体评测能力,帮助您全面评估 AI Agent 在真实网页任务中的表现
01
多样化 Data
支持 LexBench-Browser、Online-Mind2Web、BrowseComp 等多种评测基准,覆盖中英文网站、不同任务类型和难度等级
02
专业评估体系
采用 GPT-4o 作为评估模型,结合多种评估策略(功能验证、界面比对、语义匹配),确保评测结果客观准确
03
可视化分析
提供丰富的图表展示,包括通过率趋势、任务分布、多维度对比雷达图等,直观呈现评测结果
04
开放排行榜
公开透明的评测排行榜,支持多维度筛选和对比,帮助您快速了解各 Agent 的性能表现