GPT( Generative Pre-trained Transformer )模型:基于Transformer

GPT是由openAI开发的一款基于Transformer架构的预训练语言模型,拥有强大的生成能力和多任务处理能力,推动了自然语言处理(NLP)的快速发展。

一 GPT发展历程

1.1 GPT-1(2018年)

是首个基于Transformer架构的模型,使用掩码自注意力机制,但是仅仅关注了参数左侧数据,没有关注右侧数据,是之前文章学习过的单项Transformer,用这个也是为了模拟人类的自左向右生成语言的方式,并确保模型在训练和生成时的逻辑一致性。

参数量仅有1.17亿,与后面的几代比还是相差非常多的。采用了预训练+微调范式的方法,预训练大量的无标签文本,学习其内容,如语法,语义,将其分类压缩(语言建模任务),再针对下游任务在特定的小规模标注数据上微调,使模型适应具体任务。

预训练像“通识教育”,下游任务像“专业培训”。

概念说明
预训练任务模型初始训练的任务(如语言建模、掩码预测),用于学习通用特征。
下游任务具体应用任务(如情感分析、翻译),需要在预训练基础上额外调整。
微调将预训练模型适配到下游任务的过程,通常需要少量标注数据。

1.2 GPT-2(2019)

参数量扩大到15亿,预训练的数据更多。新增零样本学习,无需微调即可完成多任务(如翻译、摘要),但效果有限,并且会生成看上去挺真但实际上是假的的文本。

零样本学习(Zero-shot Learning)是一种机器学习方法,其核心是让模型使用已有的预训练的通用知识积累对输入指令的语义理解,泛化到新任务中,从而完成新任务。

1.3 GPT-3(2020)

参数量骤增到1750亿,其核心特点是使用了少样本学习(Few-shot),仅需少量示例即可适应新任务(如写代码、创作故事)。但是生成内容可能包含偏见,且存在逻辑错误。

1.4 Codex(2021)

基于GPT-3进行了微调,支持生成代码,是GitHub Copilot的基础。

GitHub Copilot 是由 GitHub 和 OpenAI 联合开发的 AI 代码辅助工具,旨在帮助开发者更高效地编写代码。

1.5 ChatGPT(2022)

采用RLHF(人类反馈强化学习)优化对话能力,减少有害输出。

RLHF(Reinforcement Learning from Human Feedback,人类反馈强化学习)是一种结合强化学习(Reinforcement Learning)人类反馈的技术,用于优化AI模型的行为,使其更符合人类的价值观和需求。

其关键步骤为:

(1)预训练模型(Supervised Fine-Tuning, SFT)

(2)训练奖励模型(Reward Model, RM)

数据收集:针对同一输入(如用户提问),让预训练模型生成多个候选回答。

人类标注:由标注员对这些回答进行排序或打分(例如基于回答的准确性、善意程度)。

奖励模型构建:学习人类偏好,预测任意回答的“质量得分”(如用排序转化为分数)。

(3)强化学习优化策略(如PPO算法)

将预训练模型作为初始策略,奖励模型作为环境反馈,通过交互迭代优化模型生成的内容,最大化奖励得分。

示例:模型生成回答 → 奖励模型打分 → 算法调整参数使高得分回答的概率增加。

1.6 GPT-4(2023)

支持多模态输入(文本+图像),推理能力进一步提升。

二 GPT核心架构

2.1 Transformer解码器堆叠

GPT仅使用Transformer的解码器层,每层包含掩码自注意力机制和前馈网络。掩码确保生成时每个词仅依赖左侧上下文。

2.2 自回归生成

逐词生成文本,每次预测下一个词的概率分布

三 训练方法

(1) 预训练(无监督)

任务:语言建模(预测下一个词)。

数据源:海量文本(如书籍、网页)。

(2) 微调(有监督)

传统方法(如GPT-1):针对特定任务(如情感分析)用标注数据调整参数。

基于提示(如GPT-3+):通过设计输入提示(Prompt)直接引导模型生成答案,无需参数更新。

RLHF(如ChatGPT):通过人类反馈训练奖励模型,再用强化学习优化生成策略。

四 关键挑战与局限

生成内容的可靠性:可能产生错误或捏造信息(“幻觉”问题)。

偏见与伦理风险:训练数据中的偏见可能导致歧视性输出。

计算成本高昂:GPT-3训练耗资数百万美元,限制研究可及性。

可解释性差:模型内部机制复杂,难以追踪决策过程。

GPT系列通过迭代创新,逐步突破语言模型的边界,展现出强大的通用性和适应性。尽管面临挑战,其在各行业的应用前景使其成为AI领域的重要里程碑。未来的发展将聚焦于提升效率、安全性及多模态融合。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/81509.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

网络检测工具InternetTest v8.9.1.2504 单文件版,支持一键查询IP/DNS、WIFI密码信息

—————【下 载 地 址】——————— 【​本章下载一】:https://drive.uc.cn/s/295e068b79314 【​本章下载二】:https://pan.xunlei.com/s/VOQDXguH0DYPxrql5y2zlkhTA1?pwdg2nx# 【百款黑科技】:https://ucnygalh6wle.feishu.cn/wiki/…

CSS- 4.1 浮动(Float)

本系列可作为前端学习系列的笔记,代码的运行环境是在HBuilder中,小编会将代码复制下来,大家复制下来就可以练习了,方便大家学习。 HTML系列文章 已经收录在前端专栏,有需要的宝宝们可以点击前端专栏查看! 点…

配置WebStorm键盘快捷键

目录 配置快捷键添加键盘快捷键添加鼠标快捷键添加缩写重置为默认快捷键 禁用双快捷键用户快捷键的保存位置与操作系统冲突 配置快捷键 WebStorm包含预定义的快捷键,同时允许自定义快捷键。要查看快捷键配置,请打开“设置”对话框,然后选择K…

Java 21 + Spring Boot 3.5:AI驱动的高性能框架实战

简介 在微服务架构日益普及的今天,如何构建一个既高性能又具备AI驱动能力的后端系统成为开发者关注的焦点。本篇文章将深入探讨Java 21与Spring Boot 3.5的结合,展示如何通过Vector API和JIT优化实现单线程性能提升30%,并利用飞算JavaAI生成智能重试机制和超时控制代码,解…

Matrix-Game:键鼠实时控制、实时生成的游戏生成模型(论文代码详细解读)

1.简介 本文介绍了一种名为Matrix-Game的交互式世界基础模型,专门用于可控的游戏世界生成。 Matrix-Game通过一个两阶段的训练流程来实现:首先进行大规模无标签预训练以理解环境,然后进行动作标记训练以生成交互式视频。为此,研…

AI生成信息准确性,Ask-Refine提问策略,Agent最少的工具箱是什么样的?

关于AI生成信息准确性的探讨 在社群聊天记录中,用户提出在使用多种AI工具搜索培生出版企业上市信息时,遇到80%信息错误的问题,质疑AI为何无法胜任简单的网络信息爬取任务,并表达了对AI实用性的期望。 我抽空对此做出解答&#xff…

Linux系统中部署java服务(docker)

1、不使用docker ✅ 1. 检查并安装 Java 环境 检查 Java 是否已安装: java -version✅ 2. 上传 Java 项目 JAR 文件 可以创建一个server文件夹,然后上传目录 查看当前目录 然后创建目录上传jar包 ✅ 3. 启动 Java 服务 java -jar hywl-server.jar…

遨游科普:三防平板是什么?有什么功能?

清晨的露珠还挂在帐篷边缘,背包里的三防平板却已开机导航;工地的尘土飞扬中,工程师正通过它查看施工图纸;暴雨倾盆的救援现场,应急队员用它实时回传灾情数据……这些看似科幻的场景,正因三防平板的普及成为…

Flask Docker Demo 项目指南

首先,创建一个新的项目目录并创建必要的文件: mkdir flask-docker-demo cd flask-docker-demo创建一个简单的Flask应用 (app.py): from flask import Flaskapp Flask(__name__)app.route(/) def hello_world():return Hello, Docker World…

GO语言语法---if语句

文章目录 1. 基本语法1.1 单分支1.2 双分支1.3 多分支 2. Go特有的if语句特性2.1 条件前可以包含初始化语句2.2 条件表达式不需要括号2.3 必须使用大括号2.4 判断语句所在行数控制 Go语言的if语句用于条件判断,与其他C风格语言类似,但有一些独特的语法特…

自动化 NuGet 包打包与上传:完整批处理脚本详解(含 SVN 支持)

在大型项目中,我们常常需要定期打包多个 .csproj 项目为 NuGet 包,并上传到私有 NuGet 服务。这篇文章分享一份实战脚本,支持以下自动化流程: 自动读取、更新 .csproj 文件中的 Version、PackageOutputPath 等节点; 自…

刷leetcodehot100返航版--双指针5/16

for (int i 0, j 0; i < n; i ) { while (j < i && check(i, j)) j ; // 具体问题的逻辑 } 常见问题分类&#xff1a; (1) 对于一个序列&#xff0c;用两个指针维护一段区间 (2) 对于两个序列&#xff0c;维护某种次序&#xff0c;比如归并排序中…

手撕四种常用设计模式(工厂,策略,代理,单例)

工厂模式 一、工厂模式的总体好处 解耦&#xff1a;客户端与具体实现类解耦&#xff0c;符合“开闭原则”。统一创建&#xff1a;对象创建交由工厂处理&#xff0c;便于集中控制。增强可维护性&#xff1a;新增对象种类时不需要大改动调用代码。便于扩展&#xff1a;易于管理…

阿里通义万相 Wan2.1-VACE:开启视频创作新境界

2025 年 5 月 14 日&#xff0c;阿里巴巴为视频创作领域带来了重磅惊喜 —— 开源通义万相 Wan2.1-VACE。这一模型堪称视频生成与编辑领域的集大成者&#xff0c;凭借其全面且强大的功能&#xff0c;为广大创作者、开发者以及企业用户开辟了全新的视频创作天地。它打破了以往视…

自定义类、元组、字典和结构体对比——AutoCAD C# 开发中建立不同对象之间的联系

以下是对它们的详细分析和对比&#xff1a; 1. 自定义类&#xff08;Class&#xff09; 优势 封装性强&#xff1a;可以定义字段、属性、方法和事件&#xff0c;实现复杂的行为和逻辑。继承与多态&#xff1a;支持继承体系&#xff0c;可通过接口或抽象类实现多态。引用类型…

MVC架构模式

mvc架构是一种常见的开发模式,以下是三个核心部分 Model&#xff08;模型&#xff09;&#xff1a;负责应用程序的数据和业务逻辑。它与数据库交互&#xff0c;处理数据的存储、检索和更新&#xff0c;是应用程序的核心业务所在。View&#xff08;视图&#xff09;&#xff1a…

Python实例题:Python百行制作登陆系统

目录 Python实例题 题目 python-login-systemPython 百行登录系统脚本 代码解释 用户数据库&#xff1a; 注册功能&#xff1a; 登录功能&#xff1a; 主程序&#xff1a; 运行思路 注意事项 Python实例题 题目 Python百行制作登陆系统 python-login-systemPython…

uniapp使用全局组件,

在 Uniapp 中&#xff0c;如果你的组件是应用层组件&#xff08;例如全局悬浮按钮、全局通知栏等&#xff09;&#xff0c;并且希望它自动出现在所有页面而无需在每个页面模板中手动添加组件标签&#xff0c;可以通过以下两种方案实现&#xff1a; 方案一&#xff1a;通过 app.…

(8)python开发经验

文章目录 1 下载python2 pip安装依赖无法访问3 系统支持4 下载python文档5 设置虚拟环境6 编译安装python 更多精彩内容&#x1f449;内容导航 &#x1f448;&#x1f449;Qt开发 &#x1f448;&#x1f449;python开发 &#x1f448; 1 下载python 下载地址尽量不要下载最新版…

【原创】基于视觉大模型gemma-3-4b实现短视频自动识别内容并生成解说文案

&#x1f4e6; 一、整体功能定位 这是一个用于从原始视频自动生成短视频解说内容的自动化工具&#xff0c;包含&#xff1a; 视频抽帧&#xff08;可基于画面变化提取关键帧&#xff09; 多模态图像识别&#xff08;每帧图片理解&#xff09; 文案生成&#xff08;大模型生成…