llama-factory 各参数详解

news/2025/11/24 11:35:10/文章来源:https://www.cnblogs.com/pass-ion/p/19263097

llama-factory web页面:

image

 

1. 模型与数据配置

参数/选项详细说明
模型名称或路径 - 作用:指定要微调的基座模型。可以是 Hugging Face 上的模型标识符(如 meta-llama/Llama-2-7b-chat-hf),也可以是本地模型文件夹的路径。
  - 注意:需要确保 LLaMA Factory 支持该模型架构,并且你有权限访问该模型。
适配器名称或路径 - 作用:如果之前进行过 LoRA 微调,可以在这里加载已有的 LoRA 适配器权重,用于继续训练或进行推理。
微调方法 - 作用:选择核心的微调策略。
  - Full:全参数微调。消耗资源巨大,通常只在资源充足且需要最大程度改变模型时使用。
  - Freeze:冻结微调。只训练模型的部分层(如最后几层),其余层参数冻结。是一种轻量级方法。
  - LoRA:最常用。在原始模型旁增加低秩适配器,只训练这些小的适配器参数,极大减少显存和计算需求。
  - QLoRA:LoRA 的量化版本。将基座模型以 4-bit 等量化方式加载,进一步降低显存需求,使得在消费级显卡上微调大模型成为可能。
数据集 - 作用:选择用于训练和评估的数据集。
  - 格式:支持多种格式,如 alpaca_gpt4_en(指令微调常用格式)、自定义的 JSON 文件等。
  - 组成:通常需要指定训练集和评估集。

 

参数名称详细说明
stage 微调阶段,可选以下类型:
  pt(Pretraining):预训练阶段。
  sft(Supervised Fine-tuning):监督微调阶段。
  rm(Reward Modeling):奖励建模阶段。
  ppo(Proximal Policy Optimization):基于奖励的强化微调阶段。
  dpo(Direct Preference Optimization):偏好优化阶段。
  kto(Knowledge Transfer Optimization):知识迁移优化阶段。
do_train 是否执行训练。true 表示执行训练,false 表示跳过训练过程,仅用于推理或验证。

数据集

参数名称解释
dataset 在 dataset_info.json 中预设的数据集名称,以 , 分隔启用多个数据集。
template 数据处理模板。设置为 llama3,表明按照适配 Llama 3 模型的格式预处理数据。
cutoff_len 输入序列的最大长度。2048 表示限制每条样本的最大 token 数。
max_samples 数据集中的最大样本数量,设置为 1000,用于减少训练规模或调试。
overwrite_cache 是否覆盖缓存的预处理数据,true 表示重新处理。
preprocessing_num_workers 数据预处理的并行线程数,设置为 16,提高处理效率。

2. 训练配置

参数详细说明
学习率 - 作用:控制模型参数更新的步长。是最重要的超参数之一。
  - 值域:通常是一个很小的值,如 1e-4 到 5e-5。太大可能导致训练不稳定(损失爆炸),太小则收敛缓慢。
训练轮数 - 作用:整个训练数据集会被模型“看过”多少次。
  - 选择:并非越多越好。太多会导致过拟合,即模型在训练集上表现很好,但在新数据上表现很差。需要配合评估损失来观察。
最大样本数 - 作用:限制每个训练轮次中使用的最大样本数量。用于快速测试或在小规模数据上实验。
学习率调度器 - 作用:动态调整学习率的策略。
  - Linear:线性衰减,学习率从初始值线性下降到 0。
  - Cosine:余弦衰减,学习率按余弦曲线平滑下降,是常用且效果较好的选择。
  - Constant:保持学习率不变。
最大梯度范数 - 作用:梯度裁剪的阈值。当梯度的范数超过此值时,会将其缩放至此范数。
  - 目的:防止梯度爆炸,稳定训练过程。通常设置为 1.0 或 0.5
验证步数 - 作用:每训练多少步,就在验证集上评估一次并计算损失。
保存步数 - 作用:每训练多少步,就保存一次模型检查点(通常是 LoRA 适配器)。
优化器 - 作用:选择用于更新模型参数的算法。
  - AdamW:最常用的优化器,是 Adam 的一个变种,能更好地处理权重衰减。
  - AdamW 8bit:AdamW 的 8 位量化版本,可以节省一些显存。
  - SGD:随机梯度下降,更古老但稳定的算法。

 

参数名称典型值解释
per_device_train_batch_size 1 每张 GPU 上的训练批量大小,影响梯度的估计质量。较大的批量能提供更稳定的梯度,适合较大的学习率;较小的批量可能导致噪声较大。小批量大小(例如 1)需要配合gradient_accumulation_steps才能等效于更大的批量。
gradient_accumulation_steps 8 梯度累积步数,累积梯度可等效增大批量大小,影响模型的收敛性和泛化性能。
learning_rate 2e-4 初始学习率,最关键的超参数之一,直接影响训练的稳定性和收敛性。
num_train_epochs 3.0 训练总轮数,微调过程中,模型通常已经有良好的初始化,因此较少的轮数往往就足够。
lr_scheduler_type cosine 学习率调度策略,决定了学习率如何变化;cosine 表示采用余弦退火策略,能够有效降低后期的学习率,通常对大模型训练表现较好。
warmup_ratio 0.1 学习率预热阶段的比例,预热阶段可以防止训练一开始因为学习率过高而导致的梯度爆炸;0.1表示前 10%的训练步数用于学习率预热。
bf16 true 是否启用 bfloat16 混合精度训练,启用可减小内存占用并加速训练。
ddp_timeout 180000000 分布式数据并行的超时时间,设置为非常大的值,确保分布式训练不会因为超时失败。

 

3. LoRA/QLoRA 配置

当微调方法选择 LoRA 或 QLoRA 时,这些参数变得至关重要。

 
参数详细说明
LoRA Rank - 作用:LoRA 适配器中矩阵的秩(r。它决定了适配器的复杂度和参数量。
  - 值域:通常是 8, 16, 32, 64。值越大,能力越强,但参数量和计算量也越大。对于大多数任务,8 或 16 已经足够。
LoRA Alpha - 作用:LoRA 适配器输出结果的缩放因子。可以理解为适配器对原始模型影响力的控制参数。
  - 经验法则:通常设置为 LoRA Rank 的 1 到 2 倍(如 rank=8, alpha=16)。这被认为是一个好的起点。
Dropout - 作用:在 LoRA 适配器中应用 Dropout 的比例,是一种防止过拟合的正则化手段。
  - 值域:0 到 1。在小数据集上可以设置一个较小的值(如 0.1),在大数据集上可以设为 0
LoRA 目标模块 - 作用:指定在模型的哪些部分添加 LoRA 适配器。这是 LoRA 微调最关键的配置之一。
  - 常见值:对于 Llama 类模型,通常是 q_proj, v_proj, k_proj, o_proj(注意力机制的核心投影层)。有时也会加上 gate_proj, up_proj, down_proj(FFN 层)。
  - All:如果选择 All,框架会自动为所有符合条件的线性层添加 LoRA。
量化比特数 - 作用:QLoRA 特有。指定基座模型的量化精度。
  - 选项:4-bit 是最常用的,在性能和显存节省之间取得了很好的平衡。8-bit 也是一个选项。

4. 生成/推理配置

参数详细说明
Do Sample - 作用:是否使用采样策略。如果为 False,则使用贪心解码(总是选择概率最大的下一个词),生成结果确定但可能枯燥。
Temperature - 作用:调整采样随机性的“温度”。
  - 值域:0 到 1 或更高。
  ~0:输出更确定,倾向于高概率词。
  ~1:平衡的随机性。
  >1:输出更随机,更具创造性,但也可能不连贯。
Top-p - 作用:核采样。从累积概率超过 p 的最小词集合中采样。
  - 效果:能动态控制候选词的范围,避免选择那些概率极低的词,同时保持多样性。通常与 Temperature 一起使用。常用值为 0.9
Top-k - 作用:从概率最高的 k 个词中进行采样。
  - 效果:另一种限制采样范围的方法。Top-p 通常比 Top-k 更灵活和有效。
Max New Tokens - 作用:生成文本的最大长度(Token 数量)。
Repetition Penalty - 作用:对已生成过的词进行惩罚,降低其再次被生成的概率,有效减少重复。
  - 值域:通常 1.0 表示无惩罚,>1.0(如 1.1 到 1.2)表示施加惩罚。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/974639.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

免费福利!6个AI工具让你轻松搞定论文写作

作者面对毕业论文写作困境,朋友分享了AI论文写作工具。随后介绍6个免费福利AI工具,包括PaperNex、图灵论文AI写作助手等。如PaperNex能30分钟生成初稿,有智能问卷设计、无限次改稿等功能;图灵论文AI写作助手可快速…

Markdown文件导入Milvus向量数据库完整指南

概述 本文档详细说明了如何将Markdown文件上传、切片并存储到Milvus向量数据库的完整流程,包括所有关键代码节点和配置说明。系统架构 用户上传MD文件↓ DocumentController (接收请求)↓ DocumentService (业务处理)↓…

2025年口碑好的氨基酸分离设备厂家推荐及采购指南

2025年口碑好的氨基酸分离设备厂家推荐及采购指南 行业背景与市场趋势 氨基酸作为生物医药、食品添加剂、饲料及化妆品等行业的重要原料,其分离纯化技术的进步直接影响产品质量与生产成本。近年来,全球氨基酸市场规…

2025年比较好的陶瓷加热圈厂家最新用户好评榜

2025年比较好的陶瓷加热圈厂家最新用户好评榜行业背景与市场趋势随着工业自动化水平的不断提升和节能环保要求的日益严格,陶瓷加热圈作为工业加热领域的关键部件,市场需求持续增长。据中国电器工业协会最新统计数据显…

小程序-拨打电话

如何调用微信 小程序 自动拨打电话功能bindtapCall: function (e) {let phoneNumber = this.data.telephone;if (phoneNumber) {wx.makePhoneCall({phoneNumber,});}}, 如需转载原创文章,请标注原文地址,版权所有!

2025年评价高的超声波探伤机实力厂家TOP推荐榜

2025年评价高的超声波探伤机实力厂家TOP推荐榜行业背景与市场趋势超声波探伤技术作为无损检测领域的重要组成部分,近年来随着工业制造水平的提升和质量要求的严格化,市场需求持续增长。据《2024-2029年中国超声波探伤…

2025 年最新推荐地板源头厂家权威排行榜,覆盖多元场景 + 定制方案的优质企业优选指南运动木/橡胶颗粒球场/epdm 橡胶颗粒/强化实木地板公司推荐

引言 地坪行业蓬勃发展的同时,市场乱象也日益凸显:源头厂家良莠不齐,劣质基材、环保不达标、施工不规范等问题频发,不仅增加后期维护成本,还可能危害人体健康。更关键的是,不同场景(工业厂房、运动场地、医疗教…

2025年评价高的焊接三型瓶四型瓶检测设备厂家推荐及选购指南

2025年评价高的焊接三型瓶四型瓶检测设备厂家推荐及选购指南行业背景与市场趋势随着工业气体应用的不断扩展,焊接气瓶作为重要的压力容器,其安全性日益受到重视。根据中国特种设备检测研究院2024年发布的数据,我国焊…

2025 年 11 月瓦房店轴承厂家权威推荐榜:精密制造与耐用品质的工业传动核心之选

2025 年 11 月瓦房店轴承厂家权威推荐榜:精密制造与耐用品质的工业传动核心之选 在当今工业传动领域,轴承作为机械装备的"关节",其性能直接影响设备运行效率和寿命。瓦房店轴承作为中国轴承工业的重要代表…

从零造定制化社交电商,仿小红书APP开发日记开篇

一直想独立啃下一个完整的全栈项目,之前要么卡在技术选型上犹豫不前,要么写着写着就被其他事打断。 最近总算狠下心定了方向——做一款支持高度定制化的社交电商APP,核心是嵌入「万象盒」定制化工具模块。区别于市面…

WordPress中,给loop循环添加分页悬停效果

将以下代码放到loop的css位置selector .page-numbers {padding-left: 10px;padding-right: 10px;padding-top: 5px;padding-bottom: 5px; }selector .page-numbers:hover{background: #000;}selector .page-numbers.cu…

2025 年 11 月净化板厂家权威推荐榜:手工/机制/硫氧镁/玻镁/彩钢/抗菌/硅岩/铝蜂窝/聚氨酯/医院/食品厂/电子厂净化板与洁净工程专业甄选

2025 年 11 月净化板厂家权威推荐榜:手工/机制/硫氧镁/玻镁/彩钢/抗菌/硅岩/铝蜂窝/聚氨酯/医院/食品厂/电子厂净化板与洁净工程专业甄选 随着现代工业对生产环境要求的不断提高,净化板作为洁净空间建设的核心材料,…

第三方库冲突解决:Ohpm依赖管理与版本锁定策略

引言:依赖管理的艺术与科学 在HarmonyOS应用开发中,第三方库的使用极大地提升了开发效率,但随之而来的依赖冲突问题也成为了开发者的主要痛点。不同库版本间的兼容性问题、传递性依赖的版本冲突、以及多模块间的依赖…

2025年质量好的消防救援安全绳最新TOP品牌厂家排行

2025年质量好的消防救援安全绳最新TOP品牌厂家排行消防救援安全绳行业概况与发展趋势消防救援安全绳作为特种安全防护装备的重要组成部分,近年来随着我国消防体系建设的不断完善和应急救援标准的持续提高,市场需求呈…

2025年虾类加工车间地坪厂家权威推荐榜单:水产加工车间地坪/糕点车间地坪/月饼车间地坪源头厂家精选

随着食品安全生产法规的日益严格,虾类加工车间地坪作为保障水产食品安全的第一道防线,其性能要求正不断提升。 根据中国食品工业协会2024年数据显示,水产加工行业在地坪建设方面的投入同比增长18.5%,其中聚氨酯砂浆…

2025年评价高的新疆储油罐清洗检测行业内知名厂家排行榜

2025年评价高的新疆储油罐清洗检测行业内知名厂家排行榜行业背景与市场趋势随着我国能源产业的持续发展和环保要求的不断提高,储油罐清洗检测行业在新疆地区迎来了快速发展期。据《2024-2025年中国工业清洗行业分析报…

2025年阜阳民事纠纷律师专业实力排行榜:十大精选律所权威评测

文章摘要 随着法治建设的深入推进,阜阳民事纠纷解决需求呈现多元化趋势,2025年民事纠纷律师行业迎来专业化发展新阶段。本文基于权威数据、用户口碑和专业实力,对阜阳地区十大民事纠纷律师进行综合排名,为需要法律…

2025年有实力的散货船物流企业实力评估榜

2025年有实力的散货船物流企业实力评估榜行业背景与市场趋势全球散货船运输市场近年来呈现稳定增长态势,据克拉克森研究数据显示,2024年全球干散货海运量预计达到55亿吨,同比增长2.8%。随着"一带一路"倡议…

深入解析:python opencv gpu加速 cmake msvc cuda编译问题和设置

深入解析:python opencv gpu加速 cmake msvc cuda编译问题和设置pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "…

2025年正规的反应容器定制厂家权威推荐榜单:不错的反应容器/专业的反应容器/质量好的反应容器源头厂家精选

在化工、制药等核心工业领域,反应容器作为生产系统的关键设备,其定制化质量直接关系到生产效能与工艺安全。2025年,反应容器定制市场规模预计将突破85亿元,其中不锈钢、高压及搪玻璃容器三大品类占据市场份额的52%…