LogoLexBench
  • 排行榜
  • Data
  • Agent
  • 功能
  • 联系我们
为什么选择 LexBench

核心功能

LexBench 提供专业的浏览器智能体评测能力,帮助您全面评估 AI Agent 在真实网页任务中的表现

01

多样化 Data

支持 LexBench-Browser、Online-Mind2Web、BrowseComp 等多种评测基准,覆盖中英文网站、不同任务类型和难度等级

02

专业评估体系

采用 GPT-4o 作为评估模型,结合多种评估策略(功能验证、界面比对、语义匹配),确保评测结果客观准确

03

可视化分析

提供丰富的图表展示,包括通过率趋势、任务分布、多维度对比雷达图等,直观呈现评测结果

04

开放排行榜

公开透明的评测排行榜,支持多维度筛选和对比,帮助您快速了解各 Agent 的性能表现

LogoLexBench

专业的 AI Agent 评测平台

GitHubGitHubTwitterX (Twitter)BlueskyBlueskyMastodonDiscordYouTubeYouTubeLinkedInEmail
评测
  • 排行榜
  • Data
  • Agent
资源
  • 博客
  • 文档
  • 更新日志
  • 路线图
公司
  • 关于我们
  • 联系我们
  • 邮件列表
法律
  • Cookie政策
  • 隐私政策
  • 服务条款
© 2026 LexBench All Rights Reserved.