NLP_ChatGPT的RLHF实战

NLP_ChatGPT的RLHF实战

news/2025/10/31 20:16:28/文章来源:https://blog.csdn.net/weixin_42504788/article/details/136117105

文章目录

介绍
小结

介绍

ChatGPT 之所以成为ChatGPT，基于人类反馈的强化学习是其中重要的一环。而ChatGPT 的训练工程称得上是复杂而又神秘的，迄今为止，OpenAl也没有开源它的训练及调优的细节。
从 OpenAl已经公开的一部分信息推知，ChatGPT的训练主要由三个步骤组成，如下图所示。

原文：
在这里插入图片描述

译文：
在这里插入图片描述

第1步，先使用大量数据(从Prompt数据库中抽样)通过监督学习在预训练的 GPT-3.5基础上微调模型，得到一个初始模型，就是监督学习微调模型(Supervised Fine-Tune Model，SFT)——暂且把它命名为“弱弱的ChatGPT”。
第2步，请标注人员为初始模型“弱弱的ChatGPT”对同一问题给出的不同答案排序，评估这些答案的质量，并为它们分配一个分数。然后使用这些数据训练出一个具有人类偏好的奖励模型(Reward Model,RM)–这个奖励模型能够代替人类评估 ChatGPT 的回答大概会得到多少奖励。
第3步，初始化“弱弱的ChatGPT”模型，从Prompt数据库中抽样，与模型进行对话。然后使用奖励模型对“弱弱的ChatGPT”模型的输出进行打分。再将结果反馈给“弱弱的 ChatGPT”模型，通过近端策略优化(Proximal Policy Optimization, PPO)算法进一步优化模型。

不过，这还没完，此时ChatGPT模型经过优化，能生成更高质量的回答，那么，再回到第1步用优化后的ChatGPT初始化模型，就得到更好的SFT模型;用更好的 SFT 在第2步中取样，又得到更好的回答;对更高质量的回答进行排序、评分后，就能训练出更好的奖励模型，于是获得更好的反馈……这样不断循环，ChatGPT 就一步接着一步，在接受人类的反馈的同时，不断自我优化，一波接一波，越变越强。

小结

ChatGPT训练三阶段：
阶段1：收集数据，通过监督学习微调模型
阶段2：收集模型生成的数据，训练一个奖励模型
阶段3：通过奖励模型以PPO强化学习算法优化策略,得到优化后的模型

学习的参考资料：
（1）书籍
利用Python进行数据分析
西瓜书
百面机器学习
机器学习实战
阿里云天池大赛赛题解析(机器学习篇)
白话机器学习中的数学
零基础学机器学习
图解机器学习算法

动手学深度学习（pytorch）

…

（2）机构
光环大数据
开课吧
极客时间
七月在线
深度之眼
贪心学院
拉勾教育
博学谷
慕课网
海贼宝藏
…

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/685101.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

计算机组成原理（2）-----存储芯片与CPU的连接

计算机组成原理（2）-----存储芯片与CPU的连接

目录一.单块存储芯片与CPU的连接二.多块存储芯片与CPU的连接 1.位扩展 2.字扩展 （1）线选法 （2）译码器片选法 3.字位同时扩展三.译码器相关一.单块存储芯片与CPU的连接如图所示是8*8位的芯片，总共8个存储…

阅读更多...

OS设备管理

OS设备管理

设备管理操作系统作为系统资源的管理者，其提供的功能有：处理机管理、存储器管理、文件管理、设备管理。其中前三个管理都是在计算机的主机内部管理其相对应的硬件。 I/O设备 I/O即输入/输出。I/O设备即可以将数据输入到计算机，或者可以接收…

阅读更多...

高校危化试剂管理：Java与SpringBoot的革新

高校危化试剂管理：Java与SpringBoot的革新

✍✍计算机编程指导师 ⭐⭐个人介绍：自己非常喜欢研究技术问题！专业做Java、Python、微信小程序、安卓、大数据、爬虫、Golang、大屏等实战项目。 ⛽⛽实战项目：有源码或者技术上的问题欢迎在评论区一起讨论交流！ ⚡⚡ Java实战 |…

阅读更多...

Vue核心基础6：Vue内置指令、自定义指令、生命周期

Vue核心基础6：Vue内置指令、自定义指令、生命周期

1 Vue中的内置指令 <script>const vm new Vue({el: #root,data: {n: 1,m: 100,name: Vue,str: <h3>你好</h3>}})</script> 1.1 v-text <div v-text"name"></div>1.2 v-html <div v-html"str"></div> …

阅读更多...

最小生成树（Kruskal算法及相关例题）

最小生成树（Kruskal算法及相关例题）

1.Kruskal算法概念以及基本思路 （1）概念： 克鲁斯卡尔算法是求连通网的最小生成树的另一种方法。它的时间复杂度为O（ElogE）(E是图G的边的总数)，适合于求边稀疏的网的最小生成树。其基本思想是&#xff…

阅读更多...

黄金交易策略（Nerve Nnife.mql4）：做单手数设计

黄金交易策略（Nerve Nnife.mql4）：做单手数设计

完整EA：Nerve Knife.ex4黄金交易策略_黄金趋势ea-CSDN博客 NK的做单量是由参数设定的，以下分别是参数项： 考虑到复利的情况，若10000本金，在以上三个参数的设计下，第1单的购买量是0.01*10,第2单是0.01*10*2…

阅读更多...

Java迭代器详解，看这一篇就够了

Java迭代器详解，看这一篇就够了

文章目录 🚩Java 迭代器详解 📚迭代器的定义 📒认识Iterator ✏️类结构图 ✒️Iterable接口 🖍️Iterator接口 📃Iterator接口的方法 📙迭代器的使用 🏷️使用迭代器遍历集合 🔖Ite…

阅读更多...

ES实战--集群扩展

ES实战--集群扩展

查看ES集群状态: GET /_cluster/health?prettytrue当一个节点加入集群的时候,ES会自动地尝试将分片在所有节点上进行均匀分配. 如果更多的节点加入集群,ES将试图在所有节点上均匀分配分片数量.这样每一个新加入的节点都能通过部分数据来分担负载第二个节点发现第一个节点,并…

阅读更多...

[BIZ] - 1.金融交易系统特点

[BIZ] - 1.金融交易系统特点

1. 典型数据汇总数据说明新增数据量(条/天) Qps(条/s) 消息大小(Byte) 实时性可丢失性可恢复性实时行情 1.使用场景：交易，报价，策略验证； 2.冷热分离：彭博行情/其他行情；黄金&期货行情/…

阅读更多...

数组操作C

数组操作C

数组操作 Description 给你一个长度为 n 的数组，并给出如下几种操作： 在下标为 a 的位置插入一个整数 b，如果其后有元素，则全部后移。例如，数组为 1, 2, 3，在下标为 1 的位置插入 4，则数组变为…

阅读更多...

acwing周赛115第二题-奶牛照相

acwing周赛115第二题-奶牛照相

5132. 奶牛照相 - AcWing题库约翰的农场有 n 头奶牛，编号 1∼n。其中，第 i 头奶牛的宽度为 wi，高度为 hi， 有一天，它们聚餐后决定拍照留念。关于拍照的描述如下： 它们一共拍了 n 张照片，其中…

阅读更多...

PyQt5中exec()与exec_()的区别

PyQt5中exec()与exec_()的区别

在PyQt5中，exec()和exec_()是两个不同的方法，用于执行动态创建的Python代码。它们的主要区别在于exec()是Python的关键字，但不能直接用作方法名，因此在PyQt5中，使用exec_()作为替代。 exec_()方法接受一个字符串作为参…

阅读更多...

debian11 安装 k8s,containerd ,阿里云镜像(已成功）

debian11 安装 k8s,containerd ,阿里云镜像(已成功）

1. 环境准备系统要求：至少 2GB RAM（建议 4GB 或更多），网络连接。节点准备：至少 3 台机器，1 台作为 Master 节点，2 台作为 Worker 节点。安装sudo apt update apt install sudo设置主机名&a…

阅读更多...

Java图形化界面编程——AWT概论笔记

Java图形化界面编程——AWT概论笔记

2.3 Container容器 2.3.1 Container继承体系 Winow是可以独立存在的顶级窗口,默认使用BorderLayout管理其内部组件布局;Panel可以容纳其他组件，但不能独立存在，它必须内嵌其他容器中使用，默认使用FlowLayout管理其内部组件布局；S…

阅读更多...

Spring Cloud Feign：声明式服务调用

Spring Cloud Feign：声明式服务调用

1. 介绍 Spring Cloud Feign 1.1 什么是 Spring Cloud Feign Spring Cloud Feign 是一个基于 Netflix Feign 的声明式服务调用客户端，它简化了基于 REST 的服务调用，使得服务之间的通信变得更加轻松和直观。通过 Feign，开发人员可以像调用本…

阅读更多...

交通管理|交通管理在线服务系统|基于Springboot的交通管理系统设计与实现(源码+数据库+文档)

交通管理|交通管理在线服务系统|基于Springboot的交通管理系统设计与实现(源码+数据库+文档)

交通管理在线服务系统目录目录基于Springboot的交通管理系统设计与实现一、前言二、系统功能设计三、系统实现 1、用户信息管理 2、驾驶证业务管理 3、机动车业务管理 4、机动车业务类型管理四、数据库设计 1、实体ER图五、核心代码六、论文参考七、最新计…

阅读更多...

MySQL学习Day15——MySQL安装与使用

MySQL学习Day15——MySQL安装与使用

一、Linux下的MySQL的安装与使用: 卸载MySQL: 1.关闭当前MySQL服务:systemctl stop mysql.service 2.查看当前mysql安装状况:rpm -qa | grep -i mysql 3.卸载上述命令查询出的已安装的程序:yum remove mysql-xxx mysql-xxx mysql-xxxx 4.删除mysql相关文件: (1)查找相关文…

阅读更多...

Python五级考试笔记

Python五级考试笔记

Python五级考试笔记【源源老师】五级标准一、掌握字符串的转义符、format()格式化方法。二、掌握列表、元组、字符串、range类型的用法及常用操作。三、理解字典类型的概念，掌握它的基础用法及操作。四、理解集合类型的概念，掌握它的基础用法及…

阅读更多...

解决vscode报错，在赋值前使用了变量“XXX“

解决vscode报错，在赋值前使用了变量“XXX“

问题：如图所示解决方法： 法一： 补全函数使其完整法二： 使用断言

阅读更多...

c++Qt网络操作

c++Qt网络操作

1、基础概念 1.1 TCP/UDP TCP 是一种面向连接的传输层协议，它能提供高可靠性通信(即数据无误、数据无丢失、数据无失序、数据无重复到达的通信) 适用情况： 1.SN/QQ等即时通讯软件的用户登录账户管理相关的功能通常采用TCP协议 2、适合于对传输质量要求较…

阅读更多...

最新文章