全免费!GPT-5.2、Claude 4.5、Gemini 3 随便用,这个神仙平台杀疯了

有这么一个神仙平台。

大厂把它当成新模型的「试炼场」。DeepSeek、OpenAI、谷歌,都曾在这里秘密测试。

普通用户可以在这里薅羊毛。

你可以免费体验GPT-5.2Gemini 3 ProClaude Opus 4.5Grok 4.1,还有 DeepSeek、智谱、MiniMax 这些国产大佬。

图像模型,可以免费用Nano Banana ProGPT-Image-1.5FLUX 2

两周前,这个平台刚完成 1.5 亿美元 A 轮融资,估值 17 亿美元,成了独角兽。

从伯克利两个博士生的校园项目,到 17 亿美元,用了不到三年时间。

昨天,它又上线了 Video Arena 网页版。

15 个顶级视频模型免费玩,Veo 3.1Sora 2可灵 2.6 ProSeedance v1.5 ProWan 2.5Hailuo 2.3,全都有。

它就是 LMArena,lmarena.ai


LMArena 不测跑分,只测「真人偏好」。

你输入一个问题,系统随机分配两个匿名模型回答。你不知道谁是谁,只能凭回答质量投票选出更好的那个。投票后才揭晓身份。

就像开盲盒。

600 万次真人投票累积下来,平台用类似国际象棋 Elo 评分系统计算排名。赢一场加分,输一场扣分,最终形成大模型榜单。

没有标准化试卷,题目来自全球 150 个国家、500 万月活用户的真实提问。

跑分可以刷榜,让模型提前背答案。但真人投票,很难作弊。

所以大厂都认这个榜。

OpenAI、谷歌、Anthropic、xAI,新模型发布前都会先送测 LMArena。


LMArena 有个传统,新模型发布前,厂商会取个代号匿名测试。

DeepSeek R1正式发布前几个月就在这里偷跑了。

OpenAI 的GPT-5代号「summit」,谷歌Gemini 2.5 Flash Image代号「nano-banana」,后者曾经红极一时,登顶图像生成和编辑榜榜首。

这个平台 2023 年还只是伯克利两个博士生的校园项目,叫 Chatbot Arena。顾问是 Ion Stoica,Databricks 联合创始人。

2025 年 5 月商业化,拿了 a16z 领投的 1 亿美元种子轮。

8 个月后又完成 1.5 亿美元 A 轮,估值 17 亿,成了独角兽。

现在年化收入超 3000 万美元,靠企业付费评测养活。测试和公开榜单对普通用户免费。


LMArena 最初只有文本对话一个赛道,现在已经扩展到八个。

想聊天,有Gemini 3 ProGPT-5.2Claude Opus 4.5Grok 4.1,还有DeepSeek R1GLM-4.7

谷歌目前霸占着 Text Arena 的榜首。

想让 AI 看图说话,Vision Arena 里谷歌同样遥遥领先。

想写代码,Code Arena(曾叫 WebDev Arena)可以一键生成前端页面让你打分。

Claude Opus 4.5稳居第一,Anthropic 在编程这个赛道杀疯了。

想生成图片,Text-to-Image Arena 累计超 420 万票,GPT-Image-1.5FLUX 2Ideogram 3都能免费用。国产的腾讯Hunyuan Image 3.0和字节Seedream 4.5也榜上有名。

想修图,Image Edit Arena 里 OpenAI 刚反超谷歌拿下榜首。谷歌的Nano Banana Pro屈居第二,累计 50 万票。

想生成视频,昨天刚上线的 Video Arena 有 15 个顶级模型,Sora 2 ProVeo 3.1并列第一。

这些平时要付费的模型,在 LMArena 上全免费。


那么,怎么用?

打开lmarena.ai,直接输入问题,你甚至都不用注册。

默认是 Battle 模式。

你输入问题,系统随机分配两个匿名模型回答,你按照结果投票,投完才揭晓背后的模型。

划重点,这个模式有机会遇到还没发布的神秘模型。比如谷歌即将发布的Gemini 3 Flash Image,也就是大香蕉Nano Banana Pro的弟弟。

如果你想指定模型对比,点击左上角的「Side-by-Side」,手动选两个模型 PK。

比如想看Claude Opus 4.5GPT-5.2谁更强,直接选了对比。

如果只想正常聊天不投票,选「Direct Chat」,挑一个模型用。

想生成图像或修图,点输入框下方的「图像」按钮,输入提示词或者上传图片。

想生成视频,访问lmarena.ai/video,输入提示词就能生成,视频可以下载。

注意,需要登录才能玩视频生成,注册免费。


说完优点,再泼一泼冷水。

LMArena 的本职工作是收集投票数据做排行榜,不是生产力工具。

所以,白嫖只是顺便。

用 Battle 模式,每轮对话后必须投票,不能跳过。

模型响应速度有时比官方慢。频繁使用会触发限制。

时不时还可能弹人机验证。

但白嫖还要啥自行车。

600 万次真人投票,骗不了人。


我是木易,Top2 + 美国 Top10 CS 硕,现在是 AI 产品经理。

关注「AI信息Gap」,让 AI 成为你的外挂。


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1203677.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

测试开机启动脚本使用避坑指南,新手必看

测试开机启动脚本使用避坑指南,新手必看 你是不是也遇到过这样的情况:写好了启动脚本,加进系统,重启后却发现——什么都没发生? 脚本没执行、日志没输出、服务没起来,甚至系统启动都变慢了…… 别急&#…

Z-Image-Turbo Docker封装建议:容器化部署最佳实践

Z-Image-Turbo Docker封装建议:容器化部署最佳实践 1. 为什么需要容器化部署Z-Image-Turbo Z-Image-Turbo作为一款轻量高效的图像生成模型,凭借其快速响应和高质量输出能力,在本地开发和小规模应用中表现突出。但实际使用中,你可…

不用GPU集群!个人显卡也能玩转大模型微调

不用GPU集群!个人显卡也能玩转大模型微调 你是不是也经历过这样的困惑:想试试大模型微调,但一查资料发现动辄需要8卡A100、显存占用400GB、训练成本上万?网上教程写得天花乱坠,可点开一看全是“需多机多卡环境”“建议…

用Qwen3-1.7B实现代码生成,效果令人惊喜

用Qwen3-1.7B实现代码生成,效果令人惊喜 你有没有试过让AI帮你写一段能直接跑通的Python脚本?不是泛泛而谈的伪代码,而是带异常处理、有注释、变量命名合理、甚至考虑了边界条件的真实代码?最近我用Qwen3-1.7B做了几轮实测——从…

5分钟理解Unsloth原理,小白也能懂的技术解析

5分钟理解Unsloth原理,小白也能懂的技术解析 1. 为什么你需要了解Unsloth? 你是不是也遇到过这样的问题:想微调一个大模型,结果跑不动?显存爆了、训练太慢、环境装不上……这些问题让很多刚入门的朋友望而却步。今天…

免费数据集+YOLOv10镜像,快速搭建农业病虫害识别系统

免费数据集YOLOv10镜像,快速搭建农业病虫害识别系统 1. 为什么农业病虫害识别需要新方案? 田间地头的作物,每天都在和看不见的敌人较量。蚜虫悄悄爬上嫩叶,稻瘟病在雨后悄然蔓延,玉米螟钻进茎秆——这些肉眼难辨的威…

DLSS Swapper:释放游戏性能潜力的超采样管理工具

DLSS Swapper:释放游戏性能潜力的超采样管理工具 【免费下载链接】dlss-swapper 项目地址: https://gitcode.com/GitHub_Trending/dl/dlss-swapper 您是否曾遇到这样的情况:新发布的游戏支持DLSS 3.0,但您的显卡驱动仅支持2.4版本&am…

如何导出识别结果?Speech Seaco Paraformer文本保存方法详解

如何导出识别结果?Speech Seaco Paraformer文本保存方法详解 1. 模型简介与使用背景 Speech Seaco Paraformer 是基于阿里 FunASR 框架构建的高性能中文语音识别模型,由科哥完成 WebUI 二次开发与工程封装。它不是简单调用 API 的轻量工具,…

2026年温州运动鞋批发实力厂家深度评测

在消费升级与电商渠道持续深耕的背景下,供应链效率与产品差异化已成为鞋履品牌与零售商的核心竞争力。作为中国鞋革产业的核心地带,温州汇聚了众多运动鞋生产厂家,其研发能力、生产工艺与交付稳定性直接决定了采购商…

手把手教你用YOLO11训练自己的分割模型

手把手教你用YOLO11训练自己的分割模型 前言 你是不是也想自己动手训练一个能精准识别物体轮廓的AI模型?比如让AI帮你从照片里抠出每一只猫、每一辆车,甚至是一片叶子的边缘?这不再是遥不可及的技术幻想。今天我们就来实战——用YOLO11训练…

POLIR-Laws: 食品安全抽样检验管理办法

POLIR-Laws: 食品安全抽样检验管理办法 食品安全抽样检验管理办法(2019年8月8日国家市场监督管理总局令第15号公布 根据2022年9月29日国家市场监督管理总局令第61号第一次修正 根据2025年3月18日国家市场监督管理总局令…

YOLOv9训练全过程演示,借助官方镜像零失败

YOLOv9训练全过程演示,借助官方镜像零失败 你是不是也经历过这样的场景: 花了一整天配环境,结果torch版本不兼容、CUDA报错、依赖冲突……最后还没开始训练,心态先崩了? 或者好不容易跑通代码,却在推理阶段…

SGLang模型路径设置:--model-path参数使用详解

SGLang模型路径设置:--model-path参数使用详解 SGLang-v0.5.6 SGLang全称Structured Generation Language(结构化生成语言),是一个推理框架。主要解决大模型部署中的痛点,优化CPU和GPU,跑出更高的吞吐量。…

Qwen对话冷启动问题?预热Prompt设计教程

Qwen对话冷启动问题?预热Prompt设计教程 1. 为什么你的Qwen一上来就“卡壳”? 你有没有遇到过这种情况:刚部署好Qwen模型,兴致勃勃地输入一句“今天心情不错”,结果AI回你个“嗯”或者干脆答非所问?这种对…

NewBie-image-Exp0.1部署教程:Python调用Diffusers生成动漫图像步骤详解

NewBie-image-Exp0.1部署教程:Python调用Diffusers生成动漫图像步骤详解 1. 引言:什么是NewBie-image-Exp0.1? 你是否曾为搭建一个复杂的AI绘图环境而头疼?下载依赖、修复报错、配置模型路径……这些繁琐的流程常常让人望而却步…

从0开始学深度学习:PyTorch通用镜像让训练与微调更简单

从0开始学深度学习:PyTorch通用镜像让训练与微调更简单 你是不是也经历过这样的场景?刚想动手跑一个深度学习模型,结果第一步就被环境配置卡住:CUDA版本不匹配、PyTorch装不上、依赖库冲突……折腾半天代码还没写一行&#xff0c…

Qwen3-4B如何对接前端?全栈集成部署教程详细步骤

Qwen3-4B如何对接前端?全栈集成部署教程详细步骤 1. 简介:为什么选择 Qwen3-4B-Instruct-2507? Qwen3-4B-Instruct-2507 是阿里云开源的一款高性能文本生成大模型,属于通义千问系列的轻量级但功能强大的版本。虽然参数规模为4B级…

NewBie-image-Exp0.1异常处理:超时重试与断点续生成机制设计

NewBie-image-Exp0.1异常处理:超时重试与断点续生成机制设计 1. 引言:为什么需要异常处理机制? NewBie-image-Exp0.1 是一个基于 Next-DiT 架构的 3.5B 参数量级动漫图像生成模型,具备高质量输出和 XML 结构化提示词控制能力。该…

保姆级教学:Qwen-Image-2512安装与内置工作流使用

保姆级教学:Qwen-Image-2512安装与内置工作流使用 你是不是也试过下载一堆模型、配置半天环境,结果卡在“ComfyUI打不开”或者“工作流加载失败”上?别急——这次我们不讲原理、不堆参数,就用最直白的方式,带你从零跑…

避坑指南:Qwen3-4B-Instruct CPU版部署常见问题全解析

避坑指南:Qwen3-4B-Instruct CPU版部署常见问题全解析 你是不是也遇到过这样的情况:兴致勃勃地想在本地CPU设备上跑一个高性能AI写作助手,结果镜像拉下来启动失败、界面打不开、生成卡成幻灯片?别急,这几乎是每个初次…