大语言模型系列-微调技术

前言

以BERT模型为代表的“预训练语言模型 + 下游任务微调”训练模式成为了自然语言处理研究和应用的新范式。此处的下游任务微调是基于模型全量参数进行微调(全量微调)。

以 GPT3 为代表的预训练语言模型(PLM)参数规模变得越来越大,这使得在消费级硬件上进行全量微调变得不可行。除此之外,模型全量微调还会损失多样性,存在灾难性遗忘的问题。

ps:全量finetune它们动辄需要几十至上百G显存训练部署,一般的实验室和个人开发者无力承担。

由此引出高效微调的方法,高效微调是指固定大部分预训练参数,仅微调少量或额外的模型参数,从而大大降低了计算和存储成本,同时,也能实现与全量微调相当的性能。在某些情况下,高效微调比全量微调效果更好,可以更好地泛化到域外场景。

高效微调技术粗略分为以下几类:

  • 增加额外参数(A):类适配器(Adapter-like)、软提示(Soft prompts)
  • 选取一部分参数更新(S)
  • 引入重参数化(R)

常见的参数高效微调技术有BitFit、Prefix Tuning、Prompt Tuning、P-Tuning、Adapter Tuning、LoRA等。

PEFT

PEFT(Parameter-Efficient Fine-Tuning,参数高效微调)是一个用于高效微调的库。
支持多种任务和模型,包括

  • Causal Language Modeling(LLaMA、ChartGLM等)
  • Conditional Generation(T5、BART等)
  • Sequence Classification
  • Token Classification
  • Text-to-Image Generation(Stable Diffusion)
  • Image Classification(ViT、Swin)
  • Image to text (Multi-modal models)

  • 支持的微调方法:
  • LoRA
  • Prompt tuning
  • IA3

SWIFT

SWIFT(Scalable lightWeight Infrastructure for Fine-Tuning)是基于PyTorch的轻量级、开箱即用的大模型微调、推理框架。它不仅集成了各类开源tuners,如LoRA、QLoRA、Adapter等,并且融合了ModelScope(魔塔)独立自研的特有tuner ResTuning,得益于此,各个模态的开发者均可以找到适合自己模型的开发方式。

SWIFT可以无缝集成到ModelScope生态系统中,打通数据集读取、模型下载、模型训练、模型推理、模型上传等流程。此外,SWIFT与PEFT完全兼容, 熟悉PEFT的用户可以使用SWIFT能力结合ModelScope的模型进行便捷地训练推理。

作为ModelScope独立自研的开源轻量级tuner ResTuning,该技术在cv、多模态等领域均经过了系列验证,在训练效果和其他微调方法相当的情况下,可以做到显存节省30%~60%,为cv、多模态模型的训练提供了新的范式,在未来会应用在越来越多的场景上。

  • 支持的模型:
    qwen 系列、qwen-vl 系列、baichuan 系列、chatglm2 系列、llama 系列、openbuddy-llama 系列、internlm 系列、stable diffusion系列、其他系列模型(polylm-13b,seqgpt-560m)
  • 支持的数据集:
    • NLP:alpaca-en (gpt4),alpaca-zh (gpt4),finance-en,multi-alpaca-all,code-en,instinwild-en,instinwild-zh,cot-en,cot-zh,firefly-all-zh,poetry-zh,instruct-en,gpt4all-en,cmnli-zh,jd-zh,dureader-robust-zh,medical-en,medical-zh,medical-mini-zh,sharegpt-en,sharegpt-zh,code-python-zh,advertise-gen
    • Agent:damo-agent-zh,damo-agent-mini-zh
    • 多模态:coco-en
    • 其他:cls-fudan-news-zh,ner-jave-zh
  • 可支持的微调方法:LoRA,QLoRA,ResTuning,Side,Prompt,Adapter,PEFT全系列tuners,全参数
  • 支持的显卡:GTX20系列、30系列、40系列消费级显卡,A10,A100,V100,T4,H100

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/703480.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

实习日志30

概要 高拍仪硬件通信原理,WebSocket源码解析(JavaScript) WebSocket 是 HTML5 开始提供的一种在单个 TCP 连接上进行全双工通讯的协议。 WebSocket 使得客户端和服务器之间的数据交换变得更加简单,允许服务端主动向客户端推送数据…

【数据库的介绍、分类、作用和特点】的讲解

数据库的介绍、分类、作用和特点 1. 数据库2. 介绍3. 分类3.1 按数据模型分类3.2 按用户数量分类3.3 按数据分布分类 4. 作用5. 特点5.1 特定类型的数据库特点 1. 数据库 数据库是用于存储、管理、处理和检索数据的系统,以下是基于不同维度的数据库的介绍、分类、作…

java RMI(远程方法调用)

java RMI(Remote Method Invocation)远程方法调用。为什么称为远程方法调用呢?因为是两个JVM间进行通讯。两个JVM一个作为服务提供端,另一个作为服务调用端。 首先需要定义一个远程调用的接口,这个接口要继承Remote接口。并且远程接口方法要…

DWT硬件延时

DWT硬件延时 文章目录 DWT硬件延时软件&硬件延时方案软件延时硬件延时方案 DWT硬件延时方案DWT硬件延时方案DEMCR寄存器DWT硬件延时方案实现延时初始化:US延时:MS延时: 软件&硬件延时方案 软件延时 static void Delay(uint32_t cou…

Leetcode刷题笔记题解(C++):6. Z 字形变换

思路:遍历时候需要更新步进长度 到达0行的时候步进长度为1;到达最后一行numRows-1行的时候步进长度为-1;代码如下所示: class Solution { public:string convert(string s, int numRows) {//如果字符串长度为1或者所给行数为1 …

vscode更新至1.86版本后,ssh远程连接服务器出现异常

问题 you are connected to an OS version that is unsupported by Visual Studio Code 你已连接到不受Visual Studio Code支持的OS 版本 原因是vscode更新到1.86版本后要求远程连接服务器的内核版本和库版本需要符合下面条件。 解决方法 因此有两种方法解决 1.更新服务器…

[数据集][目标检测]课堂行为数据集VOC+YOLO格式671张6类别

数据集格式:Pascal VOC格式YOLO格式(不包含分割路径的txt文件,仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数):671 标注数量(xml文件个数):671 标注数量(txt文件个数):671 标注类别…

开源MBG----renrenGenerator

目录 1.克隆项目到本地 2.编辑数据库连接 3.定义生成的代码模版 4.验证生成结果 5.多说一句 项目简介:人人开源项目的代码生成器,可在线生成entity、xml、dao、service、vue、sql代码,减少70%以上的开发任务。 项目地址:ren…

Floor报错原理详解+sql唯一约束性

目录 floor报错原理 唯一性约束 主键约束: 创建约束的形式 删除约束 删除唯一性约束(UNIQUE Constraint) 在SQL Server中: 在MySQL中: 在PostgreSQL中: 删除主键约束: floor报错原理 …

免费SSL证书申请流程及地址

1,选择证书提供商:有许多机构提供免费的SSL证书,如JoySSL。选择一个可靠的提供商是第一步。 免费SSL证书申请地址https://www.joyssl.com/certificate/select/free.html?nid5 2,验证域名:根据提供商的要求&#xff…

力扣4题:寻找两个正序数组的中位数

【题目描述】 (困难)给定两个大小分别为 m 和 n 的正序(从小到大)数组 nums1 和 nums2。请你找出并返回这两个正序数组的 中位数 。 题目链接:力扣(LeetCode)官网 - 全球极客挚爱的技术成长平…

sql实战_基于某推荐比值问题

将一个月内某PL对应的MBLX出现的最高的频次的占比值最大的值统计出来,并且还要把XHLX,MBLX字段添加上作为最终的推荐字段 Select * from(select *,row_number( ) over (partition by PL order by 占比最大值 desc ) rn from 表) where rn 1&#xff1b…

TensorRT及CUDA自学笔记003 NVCC及其命令行参数

TensorRT及CUDA自学笔记003 NVCC及其命令行参数 各位大佬,这是我的自学笔记,如有错误请指正,也欢迎在评论区学习交流,谢谢! NVCC是一种编译器,基于一些命令行参数可以将使用PTX或C语言编写的代码编译成可…

H5多用途的产品介绍展示单页HTML5静态网页模板

H5多用途的产品介绍展示单页HTML5静态网页模板 源码介绍:一款H5自适应多用途的产品介绍展示单页HTML静态网页模板,可用于团队官网、产品官网。 下载地址: https://www.changyouzuhao.cn/13534.html

24-树-完全二叉树的节点个数

这是树的第24篇算法,力扣链接。 给你一棵 完全二叉树 的根节点 root ,求出该树的节点个数。 完全二叉树 的定义如下:在完全二叉树中,除了最底层节点可能没填满外,其余每层节点数都达到最大值,并且最下面一层…

Selenium自动化测试:提升效果的关键技巧

在软件开发过程中,自动化测试是提高效率和质量的重要手段。而Selenium作为一个广泛使用的自动化测试工具,为开发者提供了强大的功能和灵活性。本文将介绍Selenium的概念,并分享一些提升自动化测试效果的关键技巧。 什么是Selenium&#xff1…

HarmonyOS应用开发者基础认证 模拟考试 题库

模拟考试 1.在Colum和Row容器组件中,justifycontent用于设置子组件在主轴方向上的对齐格式,alignItems用于设置子组件在交叉抽方向上的对齐格式。 正确(True) 2.Video组件可以支持本地视频路径和网络路径播放。播放网络视频时,需要申请权限oh…

Intel SGX 概述

文章目录 前言一、SGX介绍1.1 指令介绍1.2 数据结构 二、内存保护过程2.1 enclave页面缓存(EPC)2.2 Enclave页面缓存映射(EPCM) 参考资料 前言 SGX是Intel开发的新的处理器技术,可以在计算平台上提供一个可信的空间&a…

AI智能分析网关V4智慧工厂视频智能监管与风险预警平台建设方案

一、背景需求分析 1)随着信息技术的迅猛发展和制造业竞争的加剧,智慧工厂成为了推动制造业转型升级的重要引擎。智慧工厂解决方案通过整合物联网、人工智能、大数据分析等先进技术,实现生产过程的智能化、自动化和高效化,为企业提…

python 基础知识点(蓝桥杯python科目个人复习计划52)

今日复习内容:还是做题 例题1:四元组问题 问题描述: 从小学开始,小明就是一个非常喜欢数学的孩子。他喜欢用数学的方式解决各种问题。在他的高中时期,他遇到了一个非常有趣的问题,那就算给定一个长度为n…