详细介绍:LLaMA-Factory实战优化进阶

news/2025/11/11 21:10:58/文章来源:https://www.cnblogs.com/yxysuanfa/p/19211625

一、挑战和需求

基于LLaMA-Factory的LoRA微调实战与性能剖析​-CSDN博客

基于上篇博文,实验还没有结束,出现下面几个问题需要解除。

1)微调速度很慢,要16小时,如何加速训练?

2)训练完100步之后,出现显存爆炸错误,为什么会出现?如何解决?

3)如何更好的监控LOSS曲线,而不是仅仅靠WEBUI的那种LOSS曲线图?

4)如何从之前训练好的LoRA检查点接着训练?

训练效果最好的检查点?就是5)如何判断哪个检查点才

需要看完之前的博文在来阅读这篇进阶优化有更好的效果。

二、实验目的和配置

2.1 实验目的

启用LLaMA-Factory来对Qwen2.5-1.5B-Instruct模型进行LoRA微调,基于DISC-Law-SFT · 素材集的刑法部分的数据集进行偏过拟合的模型微调训练,最终得到一个刑法判决生成的专业微模型。

2.2 实验设置

三、加速训练

3.1 总览

SDPA微调加速的。就是之前选择auto默认使用的

LLaMA-Factory 三种LoRA微调加速方式对比

加速方式

核心技术原理

主要优势

对微调质量的潜在影响

适用场景

​FlashAttention-2​

通过​​分块计算​​和​​算子融合​​,重构注意力计算机制,减少GPU内存访问开销,实现更高效的并行计算。

对​​长文本序列​​训练有极佳的加速效果,并能有用降低显存占用(从O(n²)降至O(n))。

​基本无负面影响​​。它是一种精确的算法优化,计算结果与标准注意力机制完全一致,不会改变模型输出的数学基础。

处理长文本、法律文档、代码等应该长上下文的任务。

​Unsloth​

一套组合优化技巧:1. ​​4-bit量化存储​​与优化计算流程;2. ​​LoRA计算优化​​(专用算子);3. 改进的​​内存管理​​和​​多模型适配层​​。

​显著降低显存占用​​(可减少50%-80%),​​提升训练速度​​(快2-5倍),特别适合资源受限的环境(如消费级显卡)。

理论上4-bit量化可能引入极小偏差,但社区实践表明,在LoRA微调场景下,​​质量损失可忽略不计​​,几乎不影响最终性能。

显存有限的消费级显卡、快捷实验迭代、资源受限环境。

​Liger Kernel​

​内核级优化​​:针对NVIDIA GPU的CUDA架构,重写​​矩阵乘法(GEMM)​​、​​LayerNorm​​等核心算子的计算内核,并优化​​分布式通信​​,以提升硬件利用率。

追求​​极致的训练吞吐量​​,尤其在​​多卡分布式训练​​场景下能显著提升性能(吞吐量提升25%-30%)。

加速方式

最低GPU要求

推荐GPU架构

FlashAttention-2

Ampere架构(计算能力≥8.0)

RTX 30/40系列、A100等

Unsloth

Pascal架构(计算能力≥6.0)

广泛兼容,包括消费级显卡

Liger Kernel

Volta架构(计算能力≥7.0)

多卡服务器环境

3.2 确定GPU架构

nvidia-smi --query-gpu=name,compute_cap --format=csv

name, compute_cap
Tesla T4, 7.5

先执行这一步,看看能用什么加速,我这边不能使用FlashAttention加速。

3.3 FlashAttention的安装

python -c "import torch; print(f'PyTorch版本: {torch.__version__}')"
python -c "import torch; print(f'CUDA版本: {torch.version.cuda if hasattr(torch.version, \"cuda\") else \"N/A\"}')"
python --version

Releases · Dao-AILab/flash-attention

找到匹配的自己系统版本的,右击复制链接​

# 1. 下载预编译包
wget https://github.com/Dao-AILab/flash-attention/releases/download/v2.8.2/flash_attn-2.8.2+cu12torch2.7cxx11abiFALSE-cp310-cp310-linux_x86_64.whl

# 2. 安装下载的包
pip install flash_attn-2.8.1+cu12torch2.7cxx11abiFALSE-cp310-cp310-linux_x86_64.whl

如果服务器链接不了外网,就自己手动下载好,上传到服务器

T4的GPU架构不支持FlashAttention加速推理,会出现下面的报错。

RuntimeError: FlashAttention only supports Ampere GPUs or newer.

四、swanlab

4.1 swanlab是什么

欢迎使用SwanLab | SwanLab官方文档

SwanLab 是一款开源、轻量的 AI 模型训练跟踪与可视化工具,提供了一个跟踪、记录、比较、和协作实验的平台。

SwanLab 面向人工智能研究者,设计了友好的Python API 和漂亮的UI界面,并提供训练可视化、自动日志记录、超参数记录、实验对比、多人协同等功能。在SwanLab上,研究者能基于直观的可视化图表发现训练障碍,对比多个实验找到研究灵感,并通过在线网页的分享与基于组织的多人协同训练,打破团队沟通的壁垒,提高组织训练效率。

借助SwanLab,科研人员可以沉淀自己的每一次训练经验,与合作者无缝地交流和协作,机器学习工程师可以更快地开发可用于生产的模型。

4.2 swanlab怎么用

1)在官网注册,获取api-key

2)微调的时候如图勾选启用Swanlab和填写API-KEY即可

特别适合微调时间长的时候,还可以使用手机监控微调过程。

启动微调界面的时候后台挂起即可

nohup llamafactory-cli webui > webui.log 2>&1 &

这是我的微调指令,可以参考一下

llamafactory-cli train \
--stage sft \
--do_train True \
--model_name_or_path /root/model/Qwen2.5-1.5B-Instruct \
--preprocessing_num_workers 16 \
--finetuning_type lora \
--template qwen \
--flash_attn auto \
--enable_liger_kernel True \
--dataset_dir data \
--dataset CriminalLaw_train \
--cutoff_len 2048 \
--learning_rate 4e-05 \
--num_train_epochs 8.0 \
--max_samples 4000 \
--per_device_train_batch_size 2 \
--gradient_accumulation_steps 6 \
--lr_scheduler_type cosine \
--max_grad_norm 1.0 \
--logging_steps 5 \
--save_steps 100 \
--warmup_steps 0 \
--packing False \
--enable_thinking True \
--report_to none \
--use_swanlab True \
--output_dir saves/Qwen2.5-1.5B-Instruct/lora/train_2025-10-11-17-35-17 \
--bf16 True \
--plot_loss True \
--trust_remote_code True \
--ddp_timeout 180000000 \
--include_num_input_tokens_seen True \
--optim adamw_torch \
--lora_rank 12 \
--lora_alpha 24 \
--lora_dropout 0 \
--lora_target all \
--swanlab_project llamafactory \
--swanlab_run_name AI_TEST2 \
--swanlab_api_key your_api_key \
--swanlab_mode cloud \
--val_size 0.1 \
--eval_strategy steps \
--eval_steps 100 \
--per_device_eval_batch_size 2

4.3 swanlab图表

4.3.1 ​​train/loss

这是LLaMA-Factory的Loss曲线

这是swanlab的图表信息

图表名称

核心含义

关键解读要点

​train/loss​

模型预测与真实值的差距,​​核心优化目标​

应总体平稳下降,波动过大或上升可能预示问题。

​train/grad_norm​

参数更新步长的大小,反映​​训练稳定性​

值过小可能收敛停滞,值过大可能梯度爆炸。

​train/learning_rate​

控制参数更新速度的超参数

确认学习率调度策略(如预热、衰减)是否按计划执行。

​train/num_input_tokens_seen​

模型已“见过”的训练数据总量

用于估算训练进度和内容利用效率。

​train/train_tokens_per_second​

​硬件和训练流程的效率​​指标

速度骤降可能表示遇到系统瓶颈(如I/O、显存)。

​train/epoch​

训练完整个训练数据集的轮数

直观显示训练进度。

指标

当前表现分析

背后含义

​train/loss(训练损失)​

曲线呈现​​健康、平稳的下降趋势​​,初期下降迅速,后期渐趋平缓。

这是最重点的指标,表明模型正在有效地从训练数据中学习。损失下降说明模型的预测结果与真实答案越来越接近。当前状态表明训练过程良好。

​train/grad_norm(梯度范数)​

数值​​保持相对稳定​​,在一个较小的范围内波动,没有出现剧烈尖刺或归零。

梯度是模型参数更新的方向和大小。稳定的梯度范数表明训练过程​​非常平稳​​,优化器(如AdamW)在稳定地引导模型收敛。没有出现梯度爆炸(数值突然极大)或梯度消失(数值趋近于0)的问题。

​train/learning_rate(学习率)​

曲线显示采用了 ​​“线性预热”策略​​:学习率从0开始线性增大到一个峰值,然后保持恒定。

这是现代深度学习训练中特别标准的技巧。预热期让模型在训练初期“小步慢跑”地稳定方向,避免因初始权重随机而“跑偏”。预热后保持恒定学习率,有利于模型持续学习。

​train/epoch(训练轮数)​

曲线线性增长。

直观地显示了训练进度,表明训练按计划逐个epoch进行。

​train/num_input_tokens_seen(已处理Token数)​

曲线线性增长,斜率恒定。

表明数据流供给稳定,没有中断。结合train/tokens_per_second可以计算总训练时间。

​train/train_tokens_per_second(训练吞吐量)​

数值​​保持一条水平直线​​,非常稳定。

这是一个​​非常好的信号​​!说明整个训练流水线(数据加载、预处理、前向传播、反向传播)效率极高且稳定,没有遇到性能瓶颈(如磁盘I/O阻塞、CPU/GPU处理速度不均等)。

4.3.2 ​eval/loss

如果勾选了验证集合一定的比例,就会有这个图表。

指标

数据来源

核心目的

理想状态

train/loss(训练损失)​

​训练集​

指导模型​​学习​​和​​拟合​​训练内容,通过反向传播调整参数。

持续稳定下降,表明模型正在从训练数据中学习。

eval/loss(验证损失)​

​验证集​

​评估​​模型对未见数据的​​泛化能力​​,用于模型选择和超参数调优。

整体趋势应跟随训练损失下降,并最终趋于稳定。

五、选取最优检查点

5.1 选取的原则

1) train/loss越低,不代表LoRA检查点效果更好,只能说明微调过程没有问题。

2)依据eval/loss,越低说明效果越好,因为eval数据集本质上就是拿LoRA模型没有见过的数据拿去测试得到的loss值。

3)可以先根据客观指标,再根据主观指标来打分。

5.2 评估指标说明

:一只棕色的小狗在公园里快乐地奔跑。那么对于这两个模型同学生成的答案评估指标如下:就是如果标准答案

评估指标

核心关注点 (像什么样的老师)

同学A的作文:“一只棕色的小狗在公园奔跑。”

同学B的作文:“一只咖啡色的小犬在公园愉快地跑。”

主要优缺点

​BLEU​

​字面匹配​
(严格的语文老师)

​高分​
因为“棕色”、“小狗”、“公园”、“奔跑”等关键词完全匹配。

​较低分​
因为“咖啡色”、“小犬”、“跑”等词与标准答案的字面不一致。

​优点​​:标准客观,计算快。
​缺点​​:无法理解同义词,会惩罚表达多样性。

​ROUGE-L​

​内容覆盖​
(抓重点的班主任)

​很高分​
最长的公共序列(如“一只棕色的小狗在公园奔跑”)几乎覆盖了所有核心信息。

​不错的分​
核心信息(小狗、颜色、公园、跑)都提到了,但序列因用词不同而稍短。

​优点​​:更关注要点是否齐全,不严格纠结字词。
​缺点​​:对同义替换的识别依然有限。

​BERTScore-F​

​语义相似​
(重理解的英语老师)

​高分​
能识别出大部分意思一致,但会注意到“快乐地”这个情绪细节被省略了。

​很高分​
能理解“咖啡色”≈“棕色”、“小犬”≈“小狗”、“愉快地跑”≈“快乐地奔跑”,认为意思高度一致。

​优点​​:能理解语义,与人工判断更接近。
​缺点​​:计算更复杂。

5.3 数据证明

在eval/loss图中,Qwen2.5-1.5B-Instruct-lora900的值最低

Step

Train Loss

Eval Loss

BLEU Score (20平均)

ROUGE-L (20平均)

BERTScore-F (20平均)

BERTScore-R (20平均)

BERTScore-P (20平均)

0

N/A

N/A

0.1781

0.2996

0.7797

0.8261

0.7394

700

0.3483

0.3960

0.3115【+74.90%】

0.4481【+49.57%】

0.8321【+6.72%】

0.8407【+1.77%】

0.8255【+11.64%】

800

0.3381

0.3900

0.3224【+81.02%】

0.4825【+61.05%】

0.8382【+7.50%】

0.8407【+1.77%】

0.8255【+11.64%】

900

0.3246

0.3840

0.3321【+86.49%】

0.4861【+62.25%】

0.8454【+8.42%】

0.8446【+2.24%】

0.8336【+12.74%】

1000

0.3168

0.3850

0.3198【+79.56%】

0.4578【+52.80%】

0.8389【+7.60%】

0.8480【+2.65%】

0.8443【+14.19%】

1100

0.3150

N/A

0.3076【+72.74%】

0.4364【+45.66%】

0.8373【+7.39%】

0.8465【+2.47%】

0.8318【+12.50%】

生成式任务模型测评实战【附带源码】_生成任务的评估指标-CSDN博客

通过把这五个模型都导出,然后再20样本的测试集上,得到模型的评估答案,再根据之前博客说明的评估指标和函数,得到上述表格。可以有一下结论。

1) 指标上效果最好的是eval loss最低的检查点,并不是loss最低的检查点。

2)BLEU和ROUGE-L指标在Step 900达到顶峰,增幅分别超过86%和62%,证明微调显著提升了模型在特定任务上的文本生成质量和内容覆盖能力。

3)BERTScore-F1的稳步提升(峰值增幅8.42%)表明模型生成文本与参考文本在​​语义层面的相似性​​越来越好

后续应该采用人为主观评估方法,再来评估得分。

六、参考文章

SwanLab+Qwen2.5-Coder-7B-Instruct Lora微调SwanLab+Qwen2.5-Code - 掘金

大模型微调必学教程:从LOSS观测到模型合并导出与部署全流程-CSDN博客

LLaMA-Factory性能评测:比FlashAttention-2快117%,显存节约50%-CSDN博客

LLaMA Factory | SwanLab官方文档

【大模型微调】5.LLaMA-Factory调参经验总结与显存占用因素探究_llama factory 训练轮数-CSDN博客

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/962721.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ch3题解

A_数组逆序重放代码: #include <bits/stdc++.h> using namespace std; // #include <stdio.h>// 题意:数组逆置 int main() {int a[110];// 1 < n < 100int n; scanf("%d", &n);for…

2025年11月全日制艺考生文化课新推荐:聚焦全日制艺考生文化课培训/全日制艺考生文化课机构/核心考点攻坚与沉浸式教学

文化课已成为艺考生升学路上的关键支撑,2025 年相关培训需求持续升温。艺术生因长期专注专业课,常面临文化课基础薄弱、复习时间紧张、知识断层等问题,选择适配的全日制培训机构成为高效提分的关键。本次榜单聚焦深…

2025年11月镀锌板品牌新榜:聚焦HC300DPD+Z镀锌板//镀锌花纹板/热镀锌花纹板/Q345B镀锌花纹板全产业链优势!

随着建筑装饰、机械制造等领域对防腐材料需求同比增长超 30%,镀锌板市场迎来品质升级浪潮。天津作为冶金重镇,聚集了一批兼具技术实力与服务能力的优质企业。本次结合产品性能检测、市场口碑调研及交付效率评估,筛选…

[随笔]关于意识形态

Q.什么是意识形态? A.这是马克思的所有继承者中观点最为分裂不一的问题。一个事实是,马克思对这个词主要进行了否定性的使用。但是在此,不妨以一个更为中性和宽广的定义开始我们的讨论:它是现实矛盾在思想层面所最为…

Luogu P4151 [WC2011] 最大XOR和路径 题解

SolutionLink 考虑我们在 01-Trie 上是怎么做的?是不是找到一段从根到 LCA 的东西相等然后处理不相等的后面部分?同理,我们对于这张图尝试用 DFS 处理出每个点的某一种路径答案,然后用线性基尝试代替求最优。 具体…

2025年11月磨床电主轴厂家新推荐:聚焦国产磨床主轴/进口磨床主轴/内圆磨床主轴/外圆磨床主轴测评!

在精密制造产业升级浪潮中,磨床电主轴作为设备 “核心引擎”,直接决定加工精度与生产效率。2025 年国内磨削用电主轴市场规模持续扩容,国产替代进程加速,一批深耕技术的企业脱颖而出。以下结合技术实力、服务能力与…

会员小程序

https://www.vmiaopu.com/ https://vip.yunkemai.com/index.html https://zd.drip.im/ 小结建议若您希望“基础且价格更低”:推荐云客买或妙铺。若您希望“功能较完整、未来可扩展”:推荐水滴智店。在选择前,建议重…

MySQL学习,详解分页查询(limit)

MySQL学习,详解分页查询(limit)MySQL学习,详解分页查询(limit) limit介绍limit⽤来限制select查询返回的⾏数,常⽤于分页等操作。语法:select 列 from 表 limit [offset,] count;说明:offset:表⽰偏移量,通俗点…

英语_阅读_A new way to see the world:AR_待读

A new way to see the world 看世界的新方式 Welcome to TechExpo: Explore the Future of AR! 欢迎来到科技博览会:探索增强现实(AR)的未来! Discover how Augmented Reality (AR) is changing the way we learn,…

2025年11月腻子粉厂家新推荐榜:聚焦环保腻子粉/植物腻子粉/净醛腻子粉/健康腻子粉/无味腻子粉环保性能深度解析!

2025年,建筑建材行业绿色化转型加速,腻子粉作为墙面装修核心基础材料,其环保性、耐用性与适配性成为市场关注焦点。上海作为建材创新高地,汇聚众多优质腻子粉企业。本次榜单结合产品性能检测、工程案例反馈及市场口…

深入解析:嵌入式软件架构--按键消息队列2(组合键,按键转义与三种消息模式)

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

2025聚脲涂料行业优质厂家推荐榜:宁国创遂领衔,手工 / 喷涂 / 天冬聚脲涂料实力派齐聚

2025年聚脲涂料市场规模持续扩容,环保化、功能化、定制化成为发展核心趋势,手工聚脲涂料、喷涂聚脲涂料、天冬聚脲涂料、透明聚脲涂料等细分品类需求激增。基于产能实力、技术创新、环保合规及场景适配性等维度,精选…

2025优质弯管厂家推荐榜:合肥翼达机械五星领跑,安徽企业助力产业升级

弯管作为工业生产中的关键管件,其加工精度、材质适配性与工艺稳定性直接影响下游多个领域的产品质量。为展现区域优质弯管企业实力,本次 2025 推荐榜聚焦安徽地区,筛选出三家各具特色的弯管相关企业,其中合肥市翼达…

Redisson源码剖析-可重试机制的实现

private <T> RFuture<Long> tryAcquireAsync(long waitTime, long leaseTime, TimeUnit unit, long threadId) {if (leaseTime != -1) {return tryLockInnerAsync(waitTime, leaseTime, unit, threadId, R…

2025发泡混凝土优质厂家推荐榜:云南锦乐五星领跑,西南三家企业凭特色实力入围

在绿色建筑理念深化的当下,发泡混凝土凭借轻质、保温、环保的核心优势,成为建筑保温、地基填充、市政配套等场景的优选材料。2025 年行业推荐榜聚焦西南市场,筛选出 4 家实力企业,云南锦乐建筑工程有限公司以综合优…

2025篷房行业优选榜:华烨海特斯五星领跑 铝合金 / 装配式 / 工业篷房领域 4 家实力企业精准适配多场景

随着临时空间需求向安全化、定制化、长效化升级,铝合金篷房、装配式篷房、工业篷房等产品成为多领域灵活空间解决方案的核心选择。2025 年行业榜单聚焦技术实力、场景适配度与服务品质,精选 4 家优质企业,其中华烨海…

2025浸没式/液冷超充/新能源车/超充站领域实力厂家排行榜:中碳创新领衔,四大品牌重塑新能源车补能生态

随着新能源车保有量持续攀升,液冷超充凭借高效补能优势成为行业主流,超充设备、超级充电站等配套设施需求激增。以下榜单聚焦技术实力与场景落地能力,精选 4 家标杆企业,为行业及用户提供参考。 中碳创新(北京)科…

2025国内AI获客公司排行榜:全平台精准破局,4 家企业领跑抖音/快手/小红书获客赛道

2025 年生成式 AI 重塑搜索生态,AI 获客成为企业增长核心引擎,覆盖抖音、快手、视频号、小红书的全域精准获客服务备受青睐。这份榜单聚焦国内 AI 获客领域,基于技术实力、场景适配性与用户口碑,精选 4 家优质企业…

HNOI2016 序列

HNOI2016序列 题意 给定 \(n\) 和 \(m\) 以及序列 \(a\{n\}\)。有 \(m\) 次询问,每次给定区间 \([l,r]\in[1,n]\),求 \[\sum_{l\le l\le r\le r}\min_{i=l}^{r}a_i \]数据范围:\(1\le n,m\le 10^5\),\(|a_i|\le 10…

2025年山东画室机构实力推荐:济南大道画室领跑美术艺考培训新标准

随着艺术教育行业持续升级,2025年的美术培训市场正迎来专业化、体系化的发展新阶段。在山东地区,画室数量众多但教学质量参差不齐,学生家长在选择时往往面临教学实力、师资水平、升学成果等多重考量。为帮助广大家庭…