LMArena AI

534 01

AI模型盲测竞技场,提供真实人类投票的基准测试与前沿大模型对比体验。

LMArena AILMArena AI
比特指纹浏览器

Arena(原LMArena)是全球领先的AI模型基准测试与比较平台,通过数百万真实用户匿名盲测投票机制,客观评估前沿大语言模型、多模态模型在实际人类偏好下的真实表现,已成为AI行业最具公信力的开源排行榜来源。该平台从最初的Chatbot Arena演进而来,现更名为Arena,覆盖文本对话、代码生成、图像生成、视频生成、视觉理解、搜索增强、网页开发等多维度竞技场,支持ChatGPT、Claude、Gemini、DeepSeek、Llama、通义千问、Grok等数百款顶级闭源与开源模型对比,为开发者、研究者和AI爱好者提供可靠的模型实力参考与选型依据,推动AI技术向更贴合人类需求的真实评价体系持续迭代。

核心功能
盲测对战投票系统:用户提交相同提示后,平台随机选取两个匿名AI模型同时生成回答,用户盲态对比后投票选出更优一方,投票结束后揭示模型身份,完全消除品牌与知名度偏见,确保评价数据纯粹源于内容质量与实用性。
实时Elo动态排行榜:采用国际象棋级Elo算法,根据海量全球用户投票实时计算模型分数,生成文本、图像、视频、代码、视觉、网页开发等多类别Leaderboard,动态更新反映最新模型实力变化,成为业界引用最多的权威AI模型排行参考。
多模型并排侧边对比:支持用户同时与多个指定AI模型开展对话,在同一界面直观比较不同模型在逻辑、创造力、准确性、响应风格等方面的差异,便于深度体验与选型决策。
文生图与图像竞技场:集成Flux、Midjourney、DALL·E、Stable Diffusion、通义万相、SD3等多种主流图像生成模型,通过用户盲测投票评估提示词遵从度、艺术性、细节质量等,输出专业图像模型排行榜。
文生视频与多模态竞技:覆盖主流视频生成模型,支持文本到视频、图像到视频生成,用户对视频的流畅度、物理真实感、动作连贯性等进行偏好投票,持续更新视频领域最强模型榜单。
硬核专项任务评测:推出Arena-Hard、复杂推理、长上下文理解、数学、编程、网页应用生成等高难度子榜单,针对模型在真实工程与极限场景下的表现进行精细评估,提供更具挑战性的专业参考。
公开数据集与学术支持:定期将全部匿名化投票数据、对话记录发布至Hugging Face等平台,供研究者用于奖励模型训练、人类偏好对齐、LLM评测方法论等前沿课题,已被众多顶会论文广泛采用。
免费无注册快速上手:平台全部核心功能免注册、免付费开放,极大降低参与门槛,吸引全球数百万普通用户贡献真实反馈,形成最具代表性的群体智慧评估体系。
前沿模型实时接入:保持与AI社区同步,几乎第一时间集成最新开源与闭源模型(含预发布版本),用户可免费体验并参与评测最前沿AI进展,确保平台始终站在技术浪潮最前端。