团购网站管理系统求个网站好人有好报2023
团购网站管理系统,求个网站好人有好报2023,怎样建设网赌网站,如何建网站看到物联网设备信息大家好#xff0c;我是木易#xff0c;一个持续关注AI领域的互联网技术产品经理#xff0c;国内Top2本科#xff0c;美国Top10 CS研究生#xff0c;MBA。我坚信AI是普通人变强的“外挂”#xff0c;所以创建了“AI信息Gap”这个公众号#xff0c;专注于分享AI全维度知识… 大家好我是木易一个持续关注AI领域的互联网技术产品经理国内Top2本科美国Top10 CS研究生MBA。我坚信AI是普通人变强的“外挂”所以创建了“AI信息Gap”这个公众号专注于分享AI全维度知识包括但不限于AI科普AI工具测评AI效率提升AI行业洞察。关注我AI之路不迷路2024我们一起变强。 大语言模型Large Language Model简称LLM是当下生成式AI应用的核心可以理解为一辆汽车的“引擎”一个应用程序的“大脑”。LLM模型的通用基础能力是AI工具性能表现的基础。今天是2024年5月25日我们来聊一聊当前LLM模型的最新排名情况。
全球LLM模型综合排名
本排名的数据来源为LMSYS Chatbot Arena Leaderboard。LMSYS全称为LMSYS Organization由加州大学伯克利分校、加州大学圣地亚哥分校和卡内基梅隆大学合作创立是一个专注于LLM模型研究和评估的组织。他们开发了Chatbot Arena这是一个开放的LLM模型测评平台旨在通过收集用户反馈来评估和比较不同LLMs的性能。Chatbot Arena的核心功能包括模型对战Arena Battle实时聊天Direct Chat排行榜Leaderboard。 LMSYS采用了类似于国际象棋等竞技游戏中广泛使用的Elo评分系统通过众包方式进行匿名、随机对抗测评。在Chatbot Arena中系统会随机选择两个不同的大型语言模型进行比较用户在与这些模型的互动中进行评估并在匿名的情况下选择哪款模型的表现更佳。这种评测方式旨在提供一个公正、透明的评估环境帮助研究者和开发者了解和改进他们的模型。
截至目前LMSYS共有99个大语言模型参与测评总投票数已超百万。
排名模型综合得分投票数组织知识截止日期 1GPT-4o-2024-05-13128720156OpenAI2023/10 2GPT-4-Turbo-2024-04-09125262203OpenAI2023/12 3GPT-4-1106-preview125082286OpenAI2023/44Gemini 1.5 Pro API-0409-Preview124862929Google2023/115Claude 3 Opus1246121218Anthropic2023/86GPT-4-0125-preview124476435OpenAI2023/127Yi-Large-preview12361567101 AI未知8Llama-3-70b-Instruct1203129016Meta2023/129Claude 3 Sonnet119997268Anthropic2023/810Bard (Gemini Pro)120812387Google在线11Reka-Core-20240501119537076Reka AI未知12GPT-4-0314118855378OpenAI2021/913Command R118862689Cohere2024/314Qwen-Max-0428118623568Alibaba未知15Claude 3 Haiku118186889Anthropic2023/816GLM-4-011611756167Zhipu AI未知 GPT-4系列模型
几乎是毫无疑问地GPT-4系列模型夺得前三甲尤其是5月13日刚推出的GPT-4o模型更是在刚发布就直接登顶可谓是“出道即巅峰”而排在第二和第三的分别是GPT-4-Turbo-2024-04-09和GPT-4-1106-preview。值得一提的是本次排名的依据是LLM竞技场的综合得分从上面的得分可以看到GPT-4o和后面的模型在得分上差距还是非常明显的领先第二名35分之多。 谷歌Gemini系列模型
在这个最新的排行榜里谷歌的Gemini 1.5 Pro以微弱的优势打败了Claude 3 Opus位居第四。在之前我也写了不少的文章来介绍Gemini 1.5 Pro模型首先是它的上下文长度达到了惊人的100万确切的说是104万tokens而5月份的谷歌I/O开发者大会上更是宣布Gemini 1.5 Pro的上下文长度已经达到了200万但这个长度需要提交申请排waitlist才能体验。其次是它的多模态能力。最重磅的是它支持视频输入直接就能够分析视频内容。 根据谷歌最新的通知邮件Gemini 1.5 ProAPI将于5月30日开始正式收费但在Google AI Studio中使用该模型仍然免费。想体验的小伙伴可以看我这篇介绍文章谷歌Gemini 1.5 Pro向所有人开放无需waitlist阿里通义千问升级1000万字长文档处理功能。
Claude 3系列模型
Claude 3系列模型共有3档Claude 3 OpusClaude 3 SonnetClaude 3 Haiku。这三挡模型的能力依次降低响应速度依次提高价格依次降低。这其实也很好理解推理能力越强的模型需要更多的时间来理解、推断所以响应速度也就相对较慢。值得一提的是Claude 3 Opus曾经超越GPT-4登顶这个排行榜后来又被反超。 目前Claude 3 Opus排在第5名Claude 3 Sonnet第9而Claude 3 Haiku则位列第15名。
国产模型Yi-Large-preview
第7名这是目前国产LLM模型在LMSYS榜单中的最高排名来自零一万物的Yi-Large-preview。不得不说这是国内AI领域的荣耀时刻。在此之前仅有阿里的通义大模型跻身进入过前10名。
零一万物公司由创新工场创始人兼CEO李开复领导成立于2023年短短几个月内就发布了首款中英双语大模型Yi系列。Yi-Large模型是Yi系列模型的最新力作是一款拥有千亿参数的闭源大模型。除了本文提到的LMSYS排行榜在斯坦福大学最新的AlpacaEval 2.0评估中Yi-Large在全球大模型的胜率排名第三仅次于GPT-4o和GPT-4-Turbo在中文SuperCLUE评估中则位于国产大模型的榜首。 国产模型Qwen-Max-0428
来自阿里的通义系列模型之一的Qwen-Max-0428当前排名为第14名。不得不说最为去年才开始爆发的新兴领域AI大模型真是卷的厉害。通义千问的这个模型前几天还是排名第10过了几天就被打到了第14名。当然卷意味着技术的进步对我们用户来说是件好事。
注意这里的Qwen-Max-0428是通义系列模型中的一个闭源的商用模型而不是开源模型。 国产模型GLM-4-0116
GLM-4-0116模型来自智谱AI就是开发智谱清言这款AI工具的主体公司。目前GLM-4-0116排名第16名。智谱AI这家公司源自清华大学计算机系的技术成果转化致力于打造新一代认知智能通用模型。根据公开资料GLM-4-0116是智谱AI最新发布的第四代基座大模型其性能逼近GPT-4具备强大的多模态能力、长文本处理能力和智能体定制能力。该模型支持128K的上下文窗口长度可以在一次提示词中处理高达300页的文本。在长文本处理能力测试中GLM-4在128K文本长度内的精度召回率几乎达到100%。 精选推荐 使用GPT-4o模型的5种方法总有一种适合你 关于最新模型GPT-4o的14条总结都在这里 免费的GPT4终于要来了OpenAI直播发布会详细解读 春日暖阳何不来看一场OpenAI的发布会 都读到这里了点个赞鼓励一下吧小手一赞年薪百万。关注我AI之路不迷路原创技术文章第一时间推送。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/91965.shtml
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!