【大模型开源篇1】彦宏您怎么看LLaMA3的开源

Meta LLaMA是Meta公司开源的大模型,作为大模型开源界得鼻祖, 刚刚发布LLaMA3。从ChatGPT 拉开了大模型竞赛的序幕,Meta 选择了开源,至此大模型也开始百花齐放的时期,但是开源模型一直无法超过必源模型,如今LLaMA3发布,大有后来居上的趋势。

01 Meta LLaMA3的优势

  • 基于超过 15T token 训练,相当于 Llama 2 数据集的 7 倍还多;
  • 支持 8K 长文本,改进的 tokenizer 具有 128K token 的词汇量,可实现更好的性能;
  • 在大量重要基准中均具有最先进性能;
  • 在 8B 和 70B 大小上采用了分组查询注意力 (GQA,包括增强的推理和代码能力;
  • 结合了三种类型的并行策略:数据并行、模型并行和流水线并行,训练效率比 Llama 2 高 3 倍;
  • 带有 Llama Guard 2、Code Shield 和 CyberSec Eval 2 的新版信任和安全工具
  • 先进的训练堆栈,可以自动执行错误检测、处理和维护,
  • 通过 PPO 和 DPO 从偏好排名中学习也极大地提高了 LLaMA3 在推理和编码任务上的性能。
  • 其他同等规模模型的比较,前者表现出 SOTA 水平.
  • 目前还在开发的最大模型是 400B+ 参数的杀手锏.

此外,Meta还支持丰富的应用生态, Meta 提供的生成式 AI 能力在免费产品中性能是最强大的。在 Facebook、Instagram、WhatsApp 和 Messenger 上,用户现在可以借助 Meta AI 进行搜索,无需在应用程序之间切换.

02 Meta LLaMA3的架构

Llama 3 选择了相对标准的纯解码器 Transformer 架构。与 Llama 2 相比,Llama 3 做了几个关键的改进,包括:

  • Llama 3 使用具有 128K token 词汇表的 tokenizer,可以更有效地对语言进行编码,从而显著提高模型性能;
  • 为了提高 Llama 3 模型的推理效率,研究团队在 8B 和 70B 大小的模型上采用了分组查询注意力 (GQA);
  • 在 8192 个 token 的序列上训练模型,使用掩码确保自注意力不会跨越文档边界。

03 Meta LLaMA3 性能

(1)预训练模型的性能

66ccf7e90aae0e8c5aa156509f96f466.jpeg

(2)指令微调性能

05993f1d2fff2e36c69d4eb92ed5d688.jpeg

(3)人工评估

涵盖 12 个关键用例:寻求建议、头脑风暴、分类、封闭式问答、编码、创意写作、抽取、扮演一个角色/人物、开放式问答等,下图针对 Claude Sonnet、Mistral Medium 和 GPT-3.5 对这些类别和提示进行人工评估的汇总结果

8dd718784f9809afe51d9edfbd5ea5d0.jpeg

04 Meta LLaMA3使用

是驴是马,得让群众跑一跑才知道, Meta也是毫不吝啬,提供多种使用的方式给各位技术爱好者玩耍.

148e7bb22db1ba5cf78a7aa81d06e89d.jpeg

05 彦宏, 您怎么看

李彦宏近期表示,这样通过降维剪裁出来的模型,比直接用开源模型调出来的模型,同等尺寸下,效果明显更好;同等效果下,成本明显更低。“所以开源模型会越来越落后。

确实大模型时代, 需要很多金钱投入, 在这些方面, 往往大公司很有优势,这一点不可否认, 但是计算机近些年发展如此快速,得益于计算机技术不断开源, 比如我们常用linux操作系统、java语言、大数据hadoop、云平台k8s、opentelemetry、深度学习框架pytorch、tensorflow等等,我相信大模型也不例外,现在大模型发展就2条主线,开源和闭源, 开源也有优秀的模型,比如, Meta的LLama ,画图的Stable diffusion等推动大模型社区不断发展, 涌现更多创业型、创新型的小公司, 更多惠及到每个技术人

各位读者,你们觉得呢?

【大模型应用篇1】学会对模型念咒语

【大模型应用篇2】提示词实践-短剧文案

【大模型应用篇3】LLM时代下的智能体

【大模型应用篇4】普通人构建智能体的工具

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/1250.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

EA包图上嵌套的包位置不对

Extreme 2024-4-11 11:36 我从工具栏把一个包拖在另一个包里面,可是项目树上两个包的位置并列,拖了几次结果都一样。我的目的是做一个多层级的包图,是不是(EA)不能在图上做? UMLChina潘加宇 确实是这样&a…

分布式事务如何保证sql一致性?

分布式事务是在微服务和分布式系统中非常常见的问题,它指的是事务跨越多个独立的数据库或者服务。分布式系统中保证SQL的一致性较为复杂,因为它涉及到了网络通信、不同数据源或不同服务间的协调问题。 为了处理分布式事务,有多种方案和框架。…

Python可视化数据分析-饼状图

一、前言 饼状图(Pie Chart)是一种常用的数据可视化图表,用于展示数据中各部分的占比关系。Python 中有多种库可以用于绘制饼状图,比较常用的包括 matplotlib、pyecharts和 plotly 等。 二、使用 matplotlib 绘制饼状图 import…

必应bing搜索国内广告投放开户价格?

搜索引擎广告作为精准引流的重要手段之一,受到了众多企业的青睐,其中微软旗下的必应搜索(Bing),以其独特的市场定位和用户群体,成为了不可忽视的广告投放平台。对于想要在中国市场利用必应搜索进行广告投放…

局域网无法连接怎么办?

局域网连接是我们日常生活和工作中常用的方式之一,但有时我们可能会遇到局域网无法连接的问题。这给我们的工作和生活带来了很大的困扰。本文将介绍局域网无法连接的常见原因,并推荐一款名为【天联】的组网产品,它能够解决不同地区间的局域网…

Google Earth Engine 洪水制图 - 使用 Sentinel-1 SAR GRD

Sentinel-1 提供从具有双极化功能的 C 波段合成孔径雷达 (SAR) 设备获得的信息。该数据包括地面范围检测 (GRD) 场景,这些场景已通过 Sentinel-1 工具箱进行处理,以创建经过校准和正射校正的产品。该集合每天都会更新,新获得的资产会在可用后两天内添加。 该集合包含所有 G…

Delphi Firemonkey使用TVertScrollbox自定义列表数据

界面布局设置如下 创建一个过程添加新项目 procedure TForm1.AddItem(name: string; age: Integer); varlayout: TLayout; begin// 设置姓名标签的文本Label3.Text : name;// 设置年龄标签的文本Label4.Text : IntToStr(age);// 克隆 Layout1,并将克隆得到的对象赋值…

FastJson2中FastJsonHttpMessageConverter找不到类问题

问题描述 如果你最近也在升级FastJson到FastJson2版本,而跟我一样也遇到了FastJsonHttpMessageConverter找不到类问题以及FastJsonConfig找不到问题,那么恭喜你,看完本文,安装完fastjson2、fastjson2-extension、fastjson2-exte…

STM32H743驱动SD卡(1)

本文内容参考: STM32——SDIO的学习(驱动SD卡)(理论篇)-CSDN博客 STM32个人笔记-SDIO接口-CSDN博客 STM32-(40):SD卡与SDIO-CSDN博客 【STM32】使用SDIO进行SD卡读写(一)-初步认…

【Python图像处理篇】opencv中的去畸变

去畸变 opencv opencv-python光学畸变校准 使用pythonopencv进行图像的去畸变 使用pythonopencv进行图像的去畸变 关于OpenCV中的去畸变 为什么相机参数每次标定的结果都不一样(原理分析)

GO的安装和配置

第一部分:GO语言基础 第1章:GO语言的安装和配置 在开始GO语言的学习和开发之前,首先需要确保你的计算机上安装了GO环境。本章将详细介绍如何在不同操作系统上安装GO语言,并配置相应的开发环境。 1.1 GO语言的安装步骤 对于Lin…

使用python-can和cantools实现arxml报文解析、发送和接收的完整指南

文章目录 背景一、硬件支持二、环境准备1、python解释器安装2、python库安装 三、 收发案例四、 方法拓展1、canoe硬件调用2、回调函数介绍 结论 背景 在汽车行业中,CAN (Controller Area Network) 总线是用于车辆内部通信的关键技术。arxml文件是一种用于描述CAN消…

【数据结构】算法效率揭秘:时间与空间复杂度的较量

前言 在计算机科学中,时间复杂度和空间复杂度是衡量算法性能的两个重要指标。它们分别表示算法在执行过程中所需的时间和空间资源。了解这两个概念有助于我们评估和比较不同算法的优劣,从而选择更合适的算法解决问题~ 欢迎关注个人主页:逸狼 …

.github/workflows Actions为项目构建增加手动CI 构建按钮

在Github CI项目的时候, 一般是有push的时候才触发CI构建任务, 今天介绍一种通过 on workflow_dispatch 来增加手动CI构建按钮的方法。 CI构建任务代码示例 .github/workflows/ci.yml name: CIon:push:branches: [develop]pull_request:branches: [dev…

社区论坛小圈子小程序源码系统:自定义小程序管理社区圈子软件圈子系统系统开发-做社区圈子丨圈子论坛社区交友系统开源版小程序源码丨

简述 移动互联网的快速发展,微信小程序作为一种新型的应用形态,已经深入到人们的生活中。特别是对于社区论坛类应用,小程序版本可以更好地满足用户快速、便捷获取信息的需求。下面给大家分享一款社区论坛小圈子小程序源码系统。 在这个信息…

RTT设备驱动框架学习(CAN设备)

RTT设备框架属于组件和服务层,是基于RTT内核之上的上层软件。 设备框架是针对某一类外设,抽象出来的一套统一的操作方法及接入标准,可以屏蔽硬件差异,为应用层提供统一的操作方法。 RTT设备框架分为三层:设备驱动层、…

linux中如何挂载yum云仓库进行软件的安装

1.首先在根目录下建立文件,用来挂载镜像文件 [rootclient ~]# mkdir /rhel9 2.挂载镜像文件: [rootclient ~]# mount /dev/cdrom /rhel9 3.切换到 /etc/yum.repos.d 下的目录并查看 ,创建 rhel9.repo文件,并编辑云仓库域名&am…

Leetcode 410 分割数组

题目信息 LeetoCode地址: . - 力扣(LeetCode) 题目理解 将一个数组切k刀,每一块子数组求和,共k1个数,这里面有一个最大的数Max。找一种切法,使这个Max最小。 暴力解法一定是会超时的,因为包…

对前端路由的理解

在前端技术早期,一个 url 对应一个页面,如果要从 A 页面切换到 B 页面,那么必然伴随着页面的刷新。这个体验并不好,不过在最初也是无奈之举——用户只有在刷新页面的情况下,才可以重新去请求数据。 后来,改…

npm环境搭建

npm是什么 npm是前端的包管理工具,类似于后端的maven。现在npm已经集成到nodeJs中,安装好nodeJs就可以安装好npm了。 npm初始配置 一般下载好nodeJs后要对npm进行一些初始化配置。 修改npm的镜像源 npm默认的镜像源是https://registry.npmjs.org/&a…