《大语言模型》学习笔记(一)

一、什么是大语言模型

大语言模型是指在海量无标注文本数据上进行预训练得到的大型预训练语言模型,例如GPT-3,PaLM和LLaMA。大语言模型(Large Language Model,LLM)是一种基于深度学习的自然语言处理模型,能够理解和生成人类语言。它通过大量文本数据进行训练,学习语言的统计规律和语义关系,从而完成各种语言任务,如文本生成、翻译、问答、摘要等。

二、大语言模型的特点

  1. 具有较为丰富的世界知识。与传统机器学习模型相比,大语言模型经过超大规模文本数据的预训练后能够学习到较为丰富的世界知识。
  2. 具有较强的通用任务解决能力。大语言模型主要通过预测下一个词元的预训练任务进行学习,虽然并没有针对特定的下游任务进行优化,却能够建立远强于传统模型的通用任务求解能力。
  3. 具有较好的复杂任务推理能力。大语言模型在大规模文本数据预训练后,能够展现出比传统模型更强的综合推理能力。
  4. 具有较强的人类指令遵循能力。大语言模型建立了自然语言形式的统一任务解决模式:任务输入与执行结果均通过自然语言进行表达。通过预训练与微调两个阶段的学习,大语言模型具备了较好的人类指令遵循能力,能够直接通过自然语言描述下达任务指令(又称为“提示学习”)。
  5. 具有较好的人类对齐能力。目前广泛采用的对齐方式是基于人类反馈的强化学习技术,通过强化学习使得模型进行正确行为的加强以及错误行为的规避,进而建立较好的人类对齐能力。目前很多线上部署的大语言模型应用,都能够有效阻止典型的模型功能滥用行为,一定程度上规避了常见的使用风险。
  6. 具有可拓展的工具使用能力。大语言模型具有较为通用的任务求解形式,可以通过微调、上下文学习等方式掌握外部工具的使用,如搜索引擎与计算器,通过具有特殊功能的工具来加强大语言模型的能力。目前最先进的大语言模型如GPT-4等能够支持多种工具的使用,从而极大地提升了模型的任务解决能力。

三、大语言模型关键技术概览

  1. 规模扩展。早期的研究主要关注模型参数规模所带来的性能优势,最近的工作则是加大对于高质量数据的规模扩展。针对十亿级别(如2B或7B)参数的模型使用超大规模的数据(如2T或3T词元)进行训练,仍然可能无法达到这些模型的最大数据容量。实现规模扩展的关键在于模型架构的可扩展性。Transformer模型的可扩展性非常强,对于硬件并行优化的支持也比较友好,特别适合大语言模型的研发,很多工作也在进一步针对其进行优化与改进。
  2. 数据工程。OpenAI于2019年就在GPT-2的论文中给出了当前大语言模型的技术路线图:通过在海量文本上进行下一个词预测的优化,使得模型能够学习到丰富的语义知识信息,进而通过文本补全的方式解决各种下游任务。这种方式最大的好处是,极大地简化了模型的设计与优化过程,使得模型训练与使用都是基于自然语言生成的模式进行的。在这种通用的预训练范式下,模型能力本质上是来源于所见过的训练数据,因此数据工程就变得极为重要。目前来说,数据工程主要包括三个方面。首先,需要对于数据进行全面的采集,拓宽高质量的数据来源;其次,需要对于收集到的数据进行精细的清洗,尽量提升用于大模型训练的数据质量;第三,需要设计有效的数据配比与数据课程,加强模型对于数据语义信息的利用效率。这三个方面的数据工程技术直接决定了最后大语言模型的性能水平。目前来说,针对英文的开源高质量数据集合比较丰富,相关的数据工程技术讨论也相对较多,但是对于其他语言的研究关注度还有待进一步加强。
  3. 高效预训练。由于参数规模巨大,需要使用大规模分布式训练算法优化大语言模型的神经网络参数。由于大语言模型的训练需要耗费大量的算力资源,通常需要开展基于小模型的沙盒测试实验,进而确定面向大模型的最终训练策略。为此,GPT-4构建了一整套面向大模型的基础训练架构,可以使用较少的算力开销来可靠地预测大模型的最终性能。
  4. 能力激发。现有的研究认为指令微调无法向大模型注入新的知识,而是训练大模型学会利用自身所掌握的知识与信息进行任务的求解。在提示学习方面,需要设计合适的提示策略去诱导大语言模型生成正确的问题答案。为此,研究人员提出了多种高级提示策略,包括上下文学习、思维链提示等,通过构建特殊的提示模板或者表述形式来提升大语言模型对于复杂任务的求解能力。提示工程已经成为利用大语言模型能力的一个重要技术途径。进一步,大语言模型还具有较好的规划能力,能够针对复杂任务生成逐步求解的解决方案,从而简化通过单一步骤直接求解任务的难度,进一步提升模型在复杂任务上的表现。
  5. 人类对齐。在实践应用中,需要保证大语言模型能够较好地符合人类的价值观。将人类偏好引入到大模型的对齐过程:首先训练能够区分模型输出质量好坏的奖励模型,进而使用强化学习算法来指导语言模型输出行为的调整,让大语言模型能够生成符合人类预期的输出。
  6. 工具使用。通过让大语言模型学会使用各种工具的调用方式,进而利用合适的工具去实现特定的功能需求。为了能够有效地使用外部工具,GPT系列模型通过插件机制来形成系统性的工具调用方式,这些插件可以类比为大语言模型的“眼睛和耳朵”,能够有效扩展大语言模型的能力范围。在技术路径上,工具调用能力主要是通过指令微调以及提示学习两种途径实现,而未经历过特殊训练或者缺乏有效提示的大语言模型则很难有效利用候选工具。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/897862.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

电力行业中分布式能源管理(Distributed Energy Management System, DEMS)的实现

以下是电力行业中分布式能源管理(Distributed Energy Management System, DEMS)的实现方案,涵盖系统架构、关键技术、核心功能及实施路径,结合典型场景与代码示例: 一、系统架构设计 采用云-边-端三层架构,实现分布式能源的高效协同管理: 1. 终端层(感知层) 设备组…

实验5 逻辑回归

实验5 逻辑回归 【实验目的】掌握逻辑回归算法 【实验内容】处理样本,使用逻辑回归算法进行参数估计,并画出分类边界 【实验要求】写明实验步骤,必要时补充截图 1、参照“2.1梯度下降法实现线性逻辑回归.ipynb”和“2.2 sklearn实现线性逻辑…

思维训练让你更高、更强 |【逻辑思维能力】「刷题训练笔记」假设法模式逻辑训练题(1-5)

每日一刷 思维训练让你更高、更强! 题目1 谁在说谎,谁拿走了零钱? 姐姐上街买菜回来后,就随手把手里的一些零钱放在了抽屉里,可是,等姐姐下午再去拿钱买菜的时候发现抽屉里的零钱没有了,于是&…

【愚公系列】《高效使用DeepSeek》004-DeepSeek的产品形态和功能详解

标题详情作者简介愚公搬代码头衔华为云特约编辑,华为云云享专家,华为开发者专家,华为产品云测专家,CSDN博客专家,CSDN商业化专家,阿里云专家博主,阿里云签约作者,腾讯云优秀博主,腾讯云内容共创官,掘金优秀博主,亚马逊技领云博主,51CTO博客专家等。近期荣誉2022年度…

用python代码将excel中的数据批量写入Json中的某个字段,生成新的Json文件

需求 需求: 1.将execl文件中的A列赋值给json中的TrackId,B列赋值给json中的OId 要求 execl的每一行,对应json中的每一个OId json 如下: {"List": [{"BatchNumber": "181-{{var}}",// "Bat…

【Python】dash-fastapi前后端搭建

概述 项目中需要快速搭建一个前后端系统,涉及到dash-fastapi架构的时候,对该架构的时候进行总结。本文主要总结的是对该架构的基本使用,后续再对该架构的项目源码进行总结分析 此处实现一个小的demo,迷你任务管理器,…

IDEA中链接使用mysql数据库

一、连接mysql 1. 打开idea,在右上角侧边栏有数据库database插件,打开侧边栏点击加号->数据源,可以看到支持很多数据库,选择mysql。 2. 首次使用需要下载驱动程序,不然连接数据库会报错。找到mysql,点击…

程序编译生成的文件

目录 .i 文件 .s 文件 .o文件 总结 在 C 编程中,.i、.s和 .o 文件是编译过程中生成的不同阶段的文件,它们代表不同的含义: .i 文件 全称 :预处理后的文件(Intermediate File)。 含义:.i文件…

[S32K]SPI

SpiShiftClockidleLevel: CLK空闲时电平(CPOL); SpiDataShifrEdge:数据移位边沿(CPHA); SpiDataWidth: SpiTransferStart: MSB(高位起始),LSB(低位起始);; SpiHwUnit: 这是一个具体的硬件? SpiDataShiftE…

系统思考:客户价值

“真正的市场竞争,不是比谁更能制造产品,而是比谁更能创造价值。” ——杰夫贝索斯 在组织辅导中,我经常问团队一个问题:“我们的客户是谁?”大多数人的第一反应是——“支付费用的就是客户。” 这在过去的市场扩张阶…

ArcGIS Pro 车牌分区数据处理与地图制作全攻略

在大数据时代,地理信息系统(GIS)技术在各个领域都有着广泛的应用,而 ArcGIS Pro 作为一款功能强大的 GIS 软件,为数据处理和地图制作提供了丰富的工具和便捷的操作流程。 车牌数据作为一种重要的地理空间数据&#xf…

OpenCV图像加权函数:addWeighted

1 addWeighted函数 在OpenCV 里,addWeighted 函数的作用是对两个图像进行加权求和,常用于图像融合、图像过渡等场景。函数如下: cv2.addWeighted(src1, alpha, src2, beta, gamma[, dst[, dtype]])2 参数解释 src1:第一个输入图…

Tcp网络通信的基本流程梳理

先来一张经典的流程图 接下介绍一下大概流程,各个函数的参数大家自己去了解加深一下印象 服务端流程 1.创建套接字:使用 socket 函数创建一个套接字,这个套接字后续会被用于监听客户端的连接请求。 需要注意的是,服务端一般有俩…

mysql学习-删除数据(drop、truncate、delete)

1、概述 drop、truncate、delete都可以删除mysql中的数据,但它们的作用范围和操作方式有很大的不同。 2、详细区别 2.1、drop 特点: 1、速度快 2、会删除表数据,还会删除表结构,包括与该表相关的所有数据,索引&…

编程自学指南:java程序设计开发,网络编程基础,TCP编程,UDP编程,HTTP客户端开发

编程自学指南:java程序设计开发,网络编程基础 学习目标: 理解网络协议(TCP/IP、UDP)的核心概念 掌握Socket编程实现客户端与服务端通信 能够通过多线程处理并发网络请求 开发简单的网络应用(如聊天程序…

leecode797.所有可能的路径

深度优先搜索 class Solution { private:vector<vector<int>> result;vector<int> temp;void allPathsSourceTarget(vector<vector<int>> &graph,int v){if(vgraph.size()-1)result.push_back(temp);else{for(auto& adjVertex:graph[v]…

第八节:红黑树(初阶)

【本节要点】 红黑树概念红黑树性质红黑树结点定义红黑树结构红黑树插入操作的分析 一、红黑树的概念与性质 1.1 红黑树的概念 红黑树 &#xff0c;是一种 二叉搜索树 &#xff0c;但 在每个结点上增加一个存储位表示结点的颜色&#xff0c;可以是 Red和 Black 。 通过对 任何…

微信小程序threejs三维开发

微信小程序threejs开发 import * as THREE from three; const { performance, document, window, HTMLCanvasElement, requestAnimationFrame, cancelAnimationFrame, core, Event, Event0 } THREE .DHTML import Stats from three/examples/jsm/libs/stats.module.js; im…

jupyter无法转换为PDF,HTMLnbconvert failed: Pandoc wasn‘t found.

无法转为PDF 手动下载工具 https://github.com/jgm/pandoc/releases/tag/3.6.3 似乎跟我想的不大一样&#xff0c;还有新的报错 https://nbconvert.readthedocs.io/en/latest/install.html#installing-tex 不知道下的啥玩意儿 sudo apt-get install texlive-xetex texlive-fon…

关于PLC、电缆线材及气缸选型的详细教程

以下是关于PLC、电缆线材及气缸选型的详细教程&#xff0c;整合了多个专业来源的核心要点&#xff1a; 一、PLC选型要点 生产厂家选择 日系PLC&#xff08;如三菱FX系列、欧姆龙CP1系列&#xff09;适合独立设备或简单控制系统&#xff0c;性价比高。欧美系PLC&#xff08;如西…