四种微调方式
Full
对预训练模型的所有参数进行微调,让模型从底层到顶层的所有参数都参与更新,彻底适配下游任务
优点:模型对任务的适配性最强,在数据充足、任务复杂时效果通常最优
缺点:资源消耗极大(千亿参数模型需高端 GPU 集群,训练时长以天 / 周计);数据量不足时极易过拟合(模型死记训练数据,泛化能力差)
适用于数据量大,复杂度高,计算资源充足的情景
Freeze
仅微调模型的部分参数(通常是 “顶层” 或新增的任务专属层,如分类头、输出层),冻结大部分底层参数(保留预训练阶段学到的通用知识)
适用于数据量少,任务简单,计算资源有限的场景
LoRA Low-Rank Adaptation
不直接修改预训练模型的原始参数,而是在模型的关键层(如注意力层、前馈网络层)插入低秩矩阵对(可理解为 “小配件”),仅微调这组低秩矩阵,原始模型参数保持冻结
在微调过程中,原始参数全程不更新
优点:训练速度极快、显存消耗极低;效果接近全量微调,且能完美保留原模型知识;支持多任务共享大模型
缺点:
若任务需要 “深度改造” 模型(如极小众领域的知识注入),低秩矩阵可能无法完全捕捉复杂规律,效果略逊于全量微调;
依赖 “低秩假设”,若任务与预训练任务差异过大,适配性会下降
适用于纯文本的任务,多任务场景,边缘设备部署等场景
QLoRA(Quantized LoRA,量化低秩适应)
是 LoRA 的升级版:先对预训练模型进行量化压缩(如 4 位量化,将浮点数参数转为低精度整数),再在量化后的模型上应用 LoRA 方法,仅微调新增的低秩矩阵
适合用在资源极其紧张的场景