| 阶段 | 业务理解 | 数据理解 | 数据分析 | 模型训练 | 模型评价 | 模型部署 |
|---|---|---|---|---|---|---|
| 任务 | 确定业务目标 | 原始数据收集 | 数据筛选 | 算法确定 | 评价结果 | 模型发布 |
| •背景 | •数据描述 | 数据清洗 | •算法选择 | •评价模型产出 | •发布说明 | |
| •业务目标 | •数据探查 | 特征工程 | •假设说明 | •业务产出计算 | 模型监测及维护 | |
| •业务产出及评价标准 | 数据可用性评估 | 检验设计 | •模型确认 | •监测维护 | ||
| •术语说明 | •数据质量 | •模型检验设计 | 回顾挖掘过程 | 模型回顾 | ||
| 需求风险分析 | •建模支持度评估 | 模型训练 | •过程总结 | •经验总结 | ||
| •需求、假设和约束 | •参数设定 | 确定下一步工作内容 | ||||
| •风险对策分析 | •模型描述 | •工作清单 | ||||
| 确定数据挖掘目标 | 模型评估 | |||||
| •数据挖掘目标 | •评估 | |||||
| •模型评价指标 | •模型调优 | |||||
| 制订模型计划 | ||||||
| •模型计划 | ||||||
| •技术框架、算法方向 | ||||||
| 输出 | 业务需求报告 | 数据探查报告 | 数据分析报告 | 模型训练报告 | 模型评价报告 | 模型总结报告 |
| 参考模板 | 业务需求报告模板 | 数据探查报告模板 | 数据分析报告模板 | 模型训练报告模板 | 模型评价报告模板 | 模型总结报告模板 |
- 数据收集
核心内容:
• 数据来源清单(文件等,附负责人)
◦ 文件:ER database1(密级:B级).xlsx
◦ 负责人:余盈蓄
• 收集方法(手动导出、合作方提供等)
◦ 由工艺员手动从生产系统中导出。
• 数据量统计(样本数、字段数、时间范围,按来源分列)
◦ 来源: ER database1(密级:B级).xlsx
◦ 样本数: 总计 2,722 条样本(其中单步骤样本2,200条,多步骤样本520条)。
◦ 字段数: 原始数据共包含 56 个字段。
• 数据权限说明(访问权限)
◦ 访问权限仅限于本项目相关成员。
• 未获取数据说明(缺失数据的原因及影响)
◦ 由于数据记录跨度长、格式变化等原因,部分数据缺失,一定程度上影响建模。 - 数据描述
核心内容:
• 数据整体概况(总样本量、时间跨度)
◦ 总样本量: 原始样本量 2,722 条,经数据清洗与筛选后,有效样本量为 2,149 条。
• 字段详情表:
字段名
数据类型
业务含义
示例
是否关键字段
Press(mT)
整数
反应腔压力
14
是
SRF(W)
整数
上射频
300
是
SRF2(W)
整数
新设备有两个上射频
1600
是
SRF(W)-13.56M- duty
百分数
上射频开启占空比
50%
是
SRF(W)-13.56M- HZ
整数
上射频发射频率
是
BRF(W)-13.56M/BRF(W)-2M
整数
下射频功率
是
BRF(V)-13.56M/BRF(V)-2M
整数
下射频电压
是
BRF(W)-13.56M- duty /BRF(W)-2M- duty
百分比
下射频占空比
是
BRF(W)-13.56M- HZ/BRF(W)-2M- HZ
整数
下射频发射频率
是
VDC
直流偏压
是
Ir
电流比例
0.5
是
Gas ratio
字符串
进气比
33/33/34
是
CF4、N2、CHF3、HBr、O2、SO2、He、C4F6、CH2F2、CH3F、CH4、COS、Ar、Cl2、BCL3、SF6、NF3、C4F8、SiCl4、C4F6 edge、H2、Edge He、Gas ratio、STG He
整数
各项气体参数
是
T/i、T/mi、 T/mo、T/o
四区温度
是
• 数据分布概览(如数值型字段的均值/中位数,类别型字段的频数占比)
◦ 目标变量 ER(A/min):
▪ 均值:1198.044
▪ 中位数:615.62
▪ 分布:清洗前存在负值和极大异常值(>55,000),经清洗后,分布集中于0-30,000的合理区间(见下方箱线图)。
清洗后箱线图(坐标轴取值0到30000)
◦ 类别型字段(Wafer type, Model type, chamber):
▪ 各字段的类别数量及最大类别占比:Wafer type共4个类别,最大类别OX占比37.8%;Model type共11个类别,最大类别612E LB占比41.6%;chamber共42个类别,最大类别M07 PM5占比17.1%。
◦ 数值型字段:▪ 大量工艺参数(如气体、功率)具有极高的稀疏性,零值比例超过 88%,符合其“不用即为0”的业务特性。
- 数据探索
核心内容:
• 单变量分析(关键字段的分布特征,附直方图/箱线图)
◦ 关键发现: 目标变量 ER(A/min) 在清洗前存在38个异常样本(占1.74%),包括37个非正值和1个极端大值(55,028)。此分布严重偏离正态,若不处理将极大干扰模型学习。
• 多变量分析(字段间相关性,附热力图)
◦
• 业务关联探索
◦ 探索性分析发现,大量工艺参数在大部分样本中取值为0或1(默认值),这与实际生产过程中“大部分参数使用默认配方,少数情况需要微调”的业务逻辑高度吻合。这直接启发了后续特征工程中“稀疏特征分解”的策略。
• 初步分析(对建模有价值的结论)
a. 异常值与目标变量: ER(A/min) 的异常值(负值、极大值)均为无效记录,与真实业务无关,必须删除。
b. 缺失值与业务逻辑: 大部分特征的缺失(零值)本身具有明确的业务含义(即“未使用”),因此采用填充默认值(0或1) 是比直接删除样本或插补更合理的方法。
c. 特征稀疏性: 数据的极度稀疏性是核心特点之一。将稀疏特征分解为 “是否使用” 和 “使用多少” 两个特征,能更有效地帮助模型捕捉其业务意义,这是后续特征工程的关键方向。 - 数据质量
核心内容:
• 质量问题清单(按严重程度排序):
问题类型
涉及字段
问题描述(数量/比例)
影响评估
缺失值 (目标变量)
ER(A/min)
15个样本(0.69%)缺失
严重。因是预测目标,无法插补,直接删除样本。
缺失值 (系统性)
SRF2(W), CF4, O2 等38个参数
缺失率极高(88.25% - 92.93%),但代表“未使用”
高。但业务含义明确,需通过填充默认值处理,而非简单删除。
缺失值 (随机)
Tmi, Tmo, Ti, To
少量样本缺失(约1%)
中。经与工艺员确认,采用特定业务逻辑进行填充。
异常值
ER(A/min)
38个样本(1.74%)取值无效(非正或极大)
中。会一定程度扭曲模型训练。
• 数据一致性校验(如“样本间字段一致性”)
◦ 无相关问题。
• 完整性评估(是否覆盖所有关注目标)
◦ 数据覆盖了所有需要预测的刻蚀速率(ER(A/min)) 结果。
◦ 输入特征涵盖了机台采集的全部关键工艺参数(功率、电压、压力、气体流量、温度等),以及晶圆、型号、腔室等基础信息,特征集完整,能满足建模需求。
- 数据筛选与分析
核心内容: - 筛选依据
- 筛选步骤(数据过滤规则)
- 筛选后数据概况(样本量、字段数变化,与原始数据对比)
- 筛选合理性说明(为何此子集更适合建模)
- 数据清洗
核心内容: - 清洗策略(针对质量报告中的问题):
问题类型
处理方法
处理后效果(比例变化)
缺失值
针对气体流量列,区分真实零值和确实占位零值
异常值
参数2:截断至99分位值
异常样本从5个降至0
- 清洗前后数据对比(核心字段分布变化,附图表)
- 特征工程
核心内容: - 特征列表(含原始特征、衍生特征):
特征名
来源(原始/衍生)
加工逻辑
业务含义
衍生
c1/c2
衍生
-
特征处理方法(归一化、编码方式、降维等)
-
特征重要性初步评估(如通过树模型筛选特征的依据)
-
模型评估数据准备
核心内容: -
数据集划分方法(如“7:3划分训练集/测试集,分层抽样保证目标分布一致”)
-
数据集详情(各子集样本量、目标变量分布)
-
验证策略(如交叉验证的折数、时间序列验证的时间节点)
-
算法选择说明
本项目核心目标为精准预测刻蚀速率(ER(A/min)),属回归预测问题。在LightGBM与Sparse Multi-task Gaussian Process (SMTGP)的选型评估中,最终确定采用LightGBM算法,主要基于以下考量: -
业务目标契合度: 本项目核心诉求为获得刻蚀速率的高精度点估计值。LightGBM作为梯度提升决策树模型,其优化目标直接针对最小化回归误差(如均方误差),与业务目标高度一致。相比之下,SMTGP作为一种贝叶斯概率模型,其优势在于提供预测不确定性估计,而非单一精确点估计,这与当前对预测准确性的首要需求存在偏差。
-
数据特性与模型假设适配性: 经特征工程处理后,数据集包含大量数值型及稀疏特征。LightGBM能够高效处理混合类型及稀疏数据,并有效捕捉特征间的复杂非线性关系。SMTGP采用RBF核函数,其性能对输入特征的尺度非常敏感(代码中进行了StandardScaler标准化),且其“多任务”设计旨在共享不同任务间的信息。然而,本项目的多个输出任务(Wafer type_encoded, Model type_encoded, chamber_encoded, ER(A/min))在物理含义和量纲上差异巨大,强行共享信息可能干扰核心任务(ER(A/min))的学习。
-
计算效率与资源成本: LightGBM具备训练速度快、内存占用低的优点,适用于快速迭代。SMTGP的计算复杂度随数据量增长而急剧上升(近似O(n³)),其变分推断虽然通过引入诱导点(num_inducing_points=200)降低了计算开销,但训练过程(training_iter=200)仍需进行大量迭代,且依赖GPU加速以获得可接受的训练时间,计算成本显著高于LightGBM。
-
初步结果验证: 预实验结果表明(如下文所示),SMTGP在核心预测任务ER(A/min)上未能有效学习,其性能表现远未达到应用标准,且在其他分类编码任务上的预测也无效,这证明了其模型假设在本数据集上可能不成立,进一步支持了LightGBM的选型决策。
-
模型训练参数
LightGBM模型采用贝叶斯优化(Bayesian Optimization)框架进行超参数自动寻优,经过20轮迭代计算,以交叉验证平均均方误差(MSE)最小化为目标,确定了关键参数的最优配置。优化过程涵盖了影响模型性能与泛化能力的核心参数,包括学习率、树结构复杂度(叶子数量、深度、叶子最小样本数)以及正则化策略(特征与样本采样比例)。
SMTGP模型采用变分推断进行近似训练,关键参数依据经验设置:潜在任务数(num_latents=2)、诱导点数量(num_inducing_points=200)、学习率(lr=0.01)及训练迭代次数(training_iterations=200)。 -
模型效果对比
下表对比了经超参数寻优后的LightGBM模型与Sparse Multi-task Gaussian Process (SMTGP)模型在核心预测任务ER(A/min)上的性能指标。评估均采用5折交叉验证,结果为平均得分±标准差。
模型
平均MSE
MSE标准差
平均R²
R²标准差
LightGBM (超参数寻优后)
854,090.78
±503,943.74
0.816
±0.095
Sparse Multi-task GP
6,498,967.58
±3,133,918.79
-0.002
±0.004
结果分析:
LightGBM模型的预测精度显著优于SMTGP模型,其均方误差(MSE)仅为后者的约13.1%,决定系数(R²)达到0.816,表明该模型能够解释目标变量81.6%的方差,具备优秀的预测能力。SMTGP模型的R²值为负,表明其预测效果逊于使用目标变量均值的简单基准模型,未能从数据中学到有效规律。
4. 最优模型确定
确定选择贝叶斯优化后的LightGBM模型作为最终模型,理由如下:
- 预测精度优越: 该模型在关键性能指标(MSE, R²)上均显著优于对比模型。
- 泛化能力可靠: 模型在交叉验证中表现稳定,其优异的R²值表明其学习规律具备良好的泛化性。
- 优化过程充分: 模型超参数经由系统化的贝叶斯优化流程确定,确保了模型性能达到当前数据状态下的最优水平。
- 结果有效性: 对比模型SMTGP在各项任务上均表现不佳,其输出结果无可应用价值,反衬出LightGBM结果的有效性与可靠性。
- 模型解释性分析
对于LightGBM模型,可通过以下方式进行解释性分析: - 特征重要性分析: 模型可提供基于分裂增益或频次的全局特征重要性排序,用以识别对预测刻蚀速率最为关键的影响因子(如特定功率、气体流量或压力参数)。
- 树结构可视化: 可抽取代表性决策树进行可视化,以追踪模型制定决策的具体路径,增强模型行为的可理解性。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/947977.shtml
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!