核心功能

为什么选择 LexBench

LexBench 提供专业的浏览器智能体评测能力，帮助您全面评估 AI Agent 在真实网页任务中的表现

支持 LexBench-Browser、Online-Mind2Web、BrowseComp 等多种评测基准，覆盖中英文网站、不同任务类型和难度等级

采用 GPT-4o 作为评估模型，结合多种评估策略（功能验证、界面比对、语义匹配），确保评测结果客观准确

提供丰富的图表展示，包括通过率趋势、任务分布、多维度对比雷达图等，直观呈现评测结果

公开透明的评测排行榜，支持多维度筛选和对比，帮助您快速了解各 Agent 的性能表现

为什么选择 LexBench

LexBench 提供专业的浏览器智能体评测能力，帮助您全面评估 AI Agent 在真实网页任务中的表现

支持 LexBench-Browser、Online-Mind2Web、BrowseComp 等多种评测基准，覆盖中英文网站、不同任务类型和难度等级

采用 GPT-4o 作为评估模型，结合多种评估策略（功能验证、界面比对、语义匹配），确保评测结果客观准确

提供丰富的图表展示，包括通过率趋势、任务分布、多维度对比雷达图等，直观呈现评测结果

公开透明的评测排行榜，支持多维度筛选和对比，帮助您快速了解各 Agent 的性能表现