大模型发展历程

大模型的发展历程

  • 大语言模型的发展历程
    • 一、语言模型是个啥?
    • 二、语言模型的 “进化史”
      • (一)统计语言模型(SLM)
      • (二)神经语言模型(NLM)
      • (三)预训练语言模型(PLM)
      • (四)大语言模型(LLM)
    • 三、语言模型的 “秘密武器”
      • (一)模型参数规模
      • (二)数据数量和质量
    • 四、未来展望

大语言模型的发展历程

哈喽~今天咱们来好好唠唠大语言模型。这可不是什么高深莫测的玩意儿,它就在咱们身边,像 ChatGPT、文心一言这些,都是大语言模型的 “明星成员”。咱今天就来扒一扒它的 “老底”。
在这里插入图片描述

一、语言模型是个啥?

简单来说,语言模型就是能让计算机 “懂得” 人类语言的模型。它能预测下一个词是什么,也能生成像模像样的句子。就像咱们学外语,刚开始可能只会背单词,后来就能用单词造句,语言模型就是让计算机学会 “造句” 的。

举个例子,输入 “今天天气很”,语言模型就能预测下一个词可能是 “好”、“晴朗” 之类的词。是不是挺神奇的?

二、语言模型的 “进化史”

(一)统计语言模型(SLM)

这算是语言模型的 “老祖宗” 了。它基于统计学,用链式法则来建模句子序列。比如,要计算 “我爱学习” 这句话出现的概率,就得算出 “我” 出现的概率、“爱” 在 “我” 后面出现的概率、“学习” 在 “爱” 后面出现的概率,然后把这些概率乘起来。

用公式表示就是: p ( I , a m , f i n e ) = p ( I ∣ S T A R T ) ∗ p ( a m ∣ I ) ∗ p ( f i n e ∣ I , a m ) p(I,am,fine) = p(I|START) * p(am|I) * p(fine|I,am) p(I,am,fine)=p(ISTART)p(amI)p(fineI,am)

但有个麻烦,就是如果有些词组合在训练数据里没出现过,概率就算不出来。这时候就得用 “平滑” 和 “回退” 来解决。平滑就像是给没见过的词也分一点概率,回退则是当高阶模型算不出来时,用低阶模型来代替。

案例:假设我们有 “学生打开书”、“学生打开笔记本” 这两句话,如果要算 “学生打开考试” 这句话的概率,发现 “打开考试” 这个组合没出现过,那就可以用平滑方法,给 “打开考试” 也分配一点概率。

(二)神经语言模型(NLM)

随着深度学习的发展,神经语言模型登场了。它用神经网络来学习词向量,然后预测当前词。比如,用多层感知机(MLP)把单词映射到词向量,再由神经网络预测当前时刻词汇。

它的训练目标函数是:
1 N ∑ i = 1 N log ⁡ p ( w i ∣ w i − n , … , w i − 1 ) \frac{1}{N}\sum_{i=1}^{N}\log p\left(w_{i} \mid w_{i-n}, \ldots, w_{i-1}\right) N1i=1Nlogp(wiwin,,wi1)

循环神经网络(RNN)也是神经语言模型的一种。它的基本单元是:
h t = σ ( W h x x t + W h h h t − 1 + b ) h_t = \sigma(W_{hx} x_t + W_{hh} h_{t-1} + b) ht=σ(Whxxt+Whhht1+b)
y t = W h y h t + c y_t = W_{hy} h_t + c yt=Whyht+c

它能处理序列数据,就像咱们看文章一样,前面的词会影响后面的词。不过,RNN 有 “短记性”,对离得很远的词的记忆会变弱。

案例:用 RNN 来预测下一个词。比如输入 “我今天吃了一顿”,它会根据前面的词来预测下一个词可能是 “饭”、“美食” 之类的。

(三)预训练语言模型(PLM)

预训练语言模型是在大量语料上进行无监督预训练,然后在特定任务上微调的模型。比如,GPT 系列是自回归语言模型,它能根据前面的词生成后面的词;BERT 是自编码语言模型,它能理解词在句子中的含义。

GPT 的目标函数是:
L = − ∑ i = 1 n log ⁡ p ( w i ∣ w 1 , … , w i − 1 ) \mathcal{L} = -\sum_{i=1}^{n} \log p\left(w_{i} \mid w_{1}, \ldots, w_{i-1}\right) L=i=1nlogp(wiw1,,wi1)

BERT 的目标函数是:
L = − ∑ i = 1 n ( y i log ⁡ p ( w i ) + ( 1 − y i ) log ⁡ ( 1 − p ( w i ) ) ) \mathcal{L} = -\sum_{i=1}^{n} \left( y_{i} \log p\left(w_{i}\right) + (1 - y_{i}) \log \left(1 - p\left(w_{i}\right)\right) \right) L=i=1n(yilogp(wi)+(1yi)log(1p(wi)))

案例:GPT-3 有 1750 亿参数,经过海量文本预训练,能生成各种文本,像写文章、写代码都不在话下。

(四)大语言模型(LLM)

大语言模型是参数规模更大、经过海量数据预训练的模型。它的特点就是 “大力出奇迹”,能处理各种复杂任务,像问答、生成、翻译等。

案例:ChatGPT 是大语言模型的代表,它能和人进行多轮对话,回答各种问题,还能写故事、写诗。

三、语言模型的 “秘密武器”

(一)模型参数规模

参数规模越大,模型能学到的知识就越多。就像一个学生,读书越多,知识就越丰富。比如,Chinchilla 模型有 700 亿参数,经过 1.4 万亿个词训练,虽然比一些大模型参数少,但性能却很不错。

(二)数据数量和质量

数据就是模型的 “粮食”,没有足够的数据,模型就学不会东西。而且,数据质量也很重要。如果数据里有很多错误,那模型学到的东西也会有问题。

案例:有些语言模型用维基百科、新闻文章这些高质量数据来训练,所以能生成比较准确的文本。

四、未来展望

大语言模型还在不断发展,未来可能会更智能、更高效。它可能会在更多领域发挥作用,像教育、医疗、金融等。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/71657.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

springboot项目使用中创InforSuiteAS替换tomcat

springboot项目使用中创InforSuiteAS替换tomcat 学习地址一、部署InforSuiteAS1、部署2、运行 二、springboot项目打包成war包 特殊处理1、pom文件处理1、排除内嵌的tomcat包2、新增tomcat、javax.servlet-api3、打包格式设置为war4、打包后的项目名称5、启动类修改1、原来的不…

Seata

Seata是一款开源的分布式事务解决方案,由阿里巴巴发起并维护,旨在帮助应用程序管理和协调分布式事务。以下是对Seata的详细介绍: 一、概述 Seata致力于提供高性能和简单易用的分布式事务服务,它为用户提供了AT、TCC、SAGA和XA等…

Pytest自动化框架

Pytest简单介绍 下载pytest pip install pytest 第一章:Pytest console命令 默认需要test开头的py模块,test_开头的方法 1.pytest 执行pytest命令会自动匹配到test开头或者结尾的文件 将其作为测试用例文件执行,在测试用例文件中自动匹配到test开…

【spring】注解版

1.管理bean 之前我们要想管理bean都是在xml文件中将想要添加的bean手动添加进ioc容器中,这样太过麻烦了,在 Java 开发里,针对一些较为繁琐的操作,通常会有相应的简化方式,这个也不例外,就是spring提供的注…

RV1126+FFMPEG多路码流监控项目

一.项目介绍: 本项目采用的是易百纳RV1126开发板和CMOS摄像头,使用的推流框架是FFMPEG开源项目。这个项目的工作流程如下(如上图):通过采集摄像头的VI模块,再通过硬件编码VENC模块进行H264/H265的编码压缩,并把压缩后的…

13.IIC-EEPROM(AT24C02)

1.为什么需要EEPROM? 在单片机开发中,断电数据保存是常见的需求。例如,智能家居设备的用户设置、电子秤的校准参数等都需要在断电后仍能保留。AT24C02作为一款IIC接口的EEPROM芯片,具备以下优势: 非易失性存储:断电后…

ubuntu22.04安装P104-100一些经验(非教程)

一、版本: 系统:ubuntu-22.04.5-desktop-amd64.iso Nvidia 驱动:NVIDIA-Linux-x86_64-570.124.04.run。官网下载即可 二、经验 1、通用教程⭐ 直接关键词搜“ubuntu p104”会有一些教程,比如禁用nouveau等 安装参考&#xff1a…

TCP7680端口是什么服务

WAF上看到有好多tcp7680端口的访问信息 于是上网搜索了一下,确认TCP7680端口是Windows系统更新“传递优化”功能的服务端口,个人理解应该是Windows利用这个TCP7680端口,直接从内网已经具备更新包的主机上共享下载该升级包,无需从微…

OSI七大模型 --- 发送邮件

我想通过电子邮件发送一张照片给我的朋友。从我开始写邮件到发送成功,按照这个顺序讲一下我都经历了OSI模型的哪一层,对应的层使用了什么样的协议? 完整流程示例(补充物理层细节) 假设你通过Wi-Fi发送邮件&#xff1a…

LINUX网络基础 [一] - 初识网络,理解网络协议

目录 前言 一. 计算机网络背景 1.1 发展历程 1.1.1 独立模式 1.1.2 网络互联 1.1.3 局域网LAN 1.1.4 广域网WAN 1.2 总结 二. "协议" 2.1 什么是协议 2.2 网络协议的理解 2.3 网络协议的分层结构 三. OSI七层模型(理论标准) …

【LLms】关键词提取

1. 停用词 在文本处理和信息检索领域,停用词(Stop Words)是指在文本中出现频率较高,但通常不包含实际语义信息或对语义理解贡献较小的词汇。这些词汇通常是一些常见的功能词,如冠词、介词、连词、代词、感叹词、助动词…

1998-2022年各地级市三次产业占比/地级市国内生产总值构成/地级市第一产业占比、第二产业占比、第三产业占比数据(全市)

1998-2022年各地级市三次产业占比/地级市国内生产总值构成/地级市第一产业占比、第二产业占比、第三产业占比数据(全市) 1、时间:1998-2022年 2、指标:第一产业占比、第二产业占比、第三产业占比 3、来源:城市统计年…

基于STM32的简易出租车计费设计(Proteus仿真+程序+设计报告+原理图PCB+讲解视频)

这里写目录标题 1.主要功能资料下载链接:2.仿真3. 程序4. 原理图PCB5. 实物图6. 设计报告7. 下载链接 基于STM32的简易出租车计费设计(Proteus仿真程序设计报告原理图PCB讲解视频) 仿真图proteus 8.9 程序编译器:keil 5 编程语言&#xff1…

HAL库启动ADC的三个函数的区别

HAL_ADC_Start 应该是启动ADC转换的最基本函数。只是启动一次转换,然后需要用户自己去查询转换是否完成,或者可能只是单次转换。比如,当调用这个函数后,ADC开始转换,但程序需要不断检查某个标志位来看转换是否完成&am…

EXIT原理和使用

要用到的控制器NVIC(中断总控制器)、EXIT(外部中断控制器) (EXIT是NVIC是下属) GPIO外部中断简图 EXIT的基本概念 EXIT主要特性 EXTI工作原理框图(从输入线开始看) 6个寄存器 EXTI和IO的映射关系 AFIO简介 EXTI与IO对应关系 如…

经典核密度估计(Kernel Density Estimation):从直觉到数学

经典核密度估计(Kernel Density Estimation):从直觉到数学 作为一名在大模型时代进入深度学习领域的研究者,你可能对 Transformer、扩散模型等现代技术驾轻就熟。然而,在阅读一些生成模型的文献(如 Explic…

Halcon 算子 一维码检测识别、项目案例

首先我们要明白码的识别思路 把窗口全部关闭读取新的图片图像预处理创建条码模型设置模型参数搜索模型获取条码结果显示条码结果 图像预处理和条码增强 对比度太低: scale_image(或使用外部程序scale_image_range),增强图像的对比度图像模糊…

vue-cli3+vue2+elementUI+avue升级到vite+vue3+elementPlus+avue总结

上一个新公司接手了一个vue-cli3vue2vue-router3.0elementUI2.15avue2.6的后台管理项目,因为vue2在2023年底已经不更新维护了,elementUI也只支持到vue2,然后总结了一下vue3的优势,最后批准升级成为了vitevue3vue-router4.5element…

SpringBoot实战(三十五)微服务集成OAuth2.0(UAA)

目录 一、知识回顾1.1 什么是 OAuth2 协议?1.2 OAuth2 的4个角色1.3 OAuth2 的3种令牌1.4 OAuth2 的5种认证方式1.5 OAuth2 内置接口地址 二、UAA介绍2.1 概述2.2 UAA的主要功能2.3 UAA 的应用场景 三、微服务集成3.1 集成示例介绍3.2 集成测试 一、知识回顾 在进行…

红果短剧安卓+IOS双端源码,专业短剧开发公司

给大家拆解一下红果短剧/河马短剧,这种看光解锁视频,可以挣金币的短剧APP。给大家分享一个相似的短剧APP源码,这个系统已接入穿山甲广告、百度广告、快手广告、腾讯广告等,类似红果短剧的玩法,可以看剧赚钱&#xff0c…