LMArena AI

1.9K 01

AI模型盲测竞技场，提供真实人类投票的基准测试与前沿大模型对比体验。

打开网站替代方案

AI大模型

LMArena AI

打开网站

Arena（原LMArena）是全球领先的AI模型基准测试与比较平台，通过数百万真实用户匿名盲测投票机制，客观评估前沿大语言模型、多模态模型在实际人类偏好下的真实表现，已成为AI行业最具公信力的开源排行榜来源。该平台从最初的Chatbot Arena演进而来，现更名为Arena，覆盖文本对话、代码生成、图像生成、视频生成、视觉理解、搜索增强、网页开发等多维度竞技场，支持ChatGPT、Claude、Gemini、DeepSeek、Llama、通义千问、Grok等数百款顶级闭源与开源模型对比，为开发者、研究者和AI爱好者提供可靠的模型实力参考与选型依据，推动AI技术向更贴合人类需求的真实评价体系持续迭代。

核心功能
盲测对战投票系统：用户提交相同提示后，平台随机选取两个匿名AI模型同时生成回答，用户盲态对比后投票选出更优一方，投票结束后揭示模型身份，完全消除品牌与知名度偏见，确保评价数据纯粹源于内容质量与实用性。
实时Elo动态排行榜：采用国际象棋级Elo算法，根据海量全球用户投票实时计算模型分数，生成文本、图像、视频、代码、视觉、网页开发等多类别Leaderboard，动态更新反映最新模型实力变化，成为业界引用最多的权威AI模型排行参考。
多模型并排侧边对比：支持用户同时与多个指定AI模型开展对话，在同一界面直观比较不同模型在逻辑、创造力、准确性、响应风格等方面的差异，便于深度体验与选型决策。
文生图与图像竞技场：集成Flux、Midjourney、DALL·E、Stable Diffusion、通义万相、SD3等多种主流图像生成模型，通过用户盲测投票评估提示词遵从度、艺术性、细节质量等，输出专业图像模型排行榜。
文生视频与多模态竞技：覆盖主流视频生成模型，支持文本到视频、图像到视频生成，用户对视频的流畅度、物理真实感、动作连贯性等进行偏好投票，持续更新视频领域最强模型榜单。
硬核专项任务评测：推出Arena-Hard、复杂推理、长上下文理解、数学、编程、网页应用生成等高难度子榜单，针对模型在真实工程与极限场景下的表现进行精细评估，提供更具挑战性的专业参考。
公开数据集与学术支持：定期将全部匿名化投票数据、对话记录发布至Hugging Face等平台，供研究者用于奖励模型训练、人类偏好对齐、LLM评测方法论等前沿课题，已被众多顶会论文广泛采用。
免费无注册快速上手：平台全部核心功能免注册、免付费开放，极大降低参与门槛，吸引全球数百万普通用户贡献真实反馈，形成最具代表性的群体智慧评估体系。
前沿模型实时接入：保持与AI社区同步，几乎第一时间集成最新开源与闭源模型（含预发布版本），用户可免费体验并参与评测最前沿AI进展，确保平台始终站在技术浪潮最前端。