阶段 业务理解 数据理解 数据分析 模型训练 模型评价 模型部署
任务 确定业务目标 原始数据收集 数据筛选 算法确定 评价结果 模型发布
•背景 •数据描述 数据清洗 •算法选择 •评价模型产出 •发布说明
•业务目标 •数据探查 特征工程 •假设说明 •业务产出计算 模型监测及维护
•业务产出及评价标准 数据可用性评估 检验设计 •模型确认 •监测维护
•术语说明 •数据质量 •模型检验设计 回顾挖掘过程 模型回顾
需求风险分析 •建模支持度评估 模型训练 •过程总结 •经验总结
•需求、假设和约束 •参数设定 确定下一步工作内容
•风险对策分析 •模型描述 •工作清单
确定数据挖掘目标 模型评估
•数据挖掘目标 •评估
•模型评价指标 •模型调优
制订模型计划
•模型计划
•技术框架、算法方向
输出 业务需求报告 数据探查报告 数据分析报告 模型训练报告 模型评价报告 模型总结报告
参考模板 业务需求报告模板 数据探查报告模板 数据分析报告模板 模型训练报告模板 模型评价报告模板 模型总结报告模板
  1. 数据收集
    核心内容:
    • 数据来源清单(文件等,附负责人)
    ◦ 文件:ER database1(密级:B级).xlsx
    ◦ 负责人:余盈蓄
    • 收集方法(手动导出、合作方提供等)
    ◦ 由工艺员手动从生产系统中导出。
    • 数据量统计(样本数、字段数、时间范围,按来源分列)
    ◦ 来源: ER database1(密级:B级).xlsx
    ◦ 样本数: 总计 2,722 条样本(其中单步骤样本2,200条,多步骤样本520条)。
    ◦ 字段数: 原始数据共包含 56 个字段。
    • 数据权限说明(访问权限)
    ◦ 访问权限仅限于本项目相关成员。
    • 未获取数据说明(缺失数据的原因及影响)
    ◦ 由于数据记录跨度长、格式变化等原因,部分数据缺失,一定程度上影响建模。
  2. 数据描述
    核心内容:
    • 数据整体概况(总样本量、时间跨度)
    ◦ 总样本量: 原始样本量 2,722 条,经数据清洗与筛选后,有效样本量为 2,149 条。
    • 字段详情表:
    字段名
    数据类型
    业务含义
    示例
    是否关键字段

Press(mT)
整数
反应腔压力
14

SRF(W)
整数
上射频
300

SRF2(W)
整数
新设备有两个上射频
1600

SRF(W)-13.56M- duty
百分数
上射频开启占空比
50%

SRF(W)-13.56M- HZ
整数
上射频发射频率

BRF(W)-13.56M/BRF(W)-2M
整数
下射频功率

BRF(V)-13.56M/BRF(V)-2M
整数
下射频电压

BRF(W)-13.56M- duty /BRF(W)-2M- duty
百分比
下射频占空比

BRF(W)-13.56M- HZ/BRF(W)-2M- HZ
整数
下射频发射频率

VDC

直流偏压

Ir

电流比例
0.5

Gas ratio
字符串
进气比
33/33/34

CF4、N2、CHF3、HBr、O2、SO2、He、C4F6、CH2F2、CH3F、CH4、COS、Ar、Cl2、BCL3、SF6、NF3、C4F8、SiCl4、C4F6 edge、H2、Edge He、Gas ratio、STG He
整数
各项气体参数

T/i、T/mi、 T/mo、T/o

四区温度

• 数据分布概览(如数值型字段的均值/中位数,类别型字段的频数占比)
◦ 目标变量 ER(A/min):
▪ 均值:1198.044
▪ 中位数:615.62
▪ 分布:清洗前存在负值和极大异常值(>55,000),经清洗后,分布集中于0-30,000的合理区间(见下方箱线图)。
清洗后箱线图(坐标轴取值0到30000)
◦ 类别型字段(Wafer type, Model type, chamber):
▪ 各字段的类别数量及最大类别占比:Wafer type共4个类别,最大类别OX占比37.8%;Model type共11个类别,最大类别612E LB占比41.6%;chamber共42个类别,最大类别M07 PM5占比17.1%。

◦ 数值型字段:▪ 大量工艺参数(如气体、功率)具有极高的稀疏性,零值比例超过 88%,符合其“不用即为0”的业务特性。
  1. 数据探索
    核心内容:
    • 单变量分析(关键字段的分布特征,附直方图/箱线图)
    ◦ 关键发现: 目标变量 ER(A/min) 在清洗前存在38个异常样本(占1.74%),包括37个非正值和1个极端大值(55,028)。此分布严重偏离正态,若不处理将极大干扰模型学习。
    • 多变量分析(字段间相关性,附热力图)

    • 业务关联探索
    ◦ 探索性分析发现,大量工艺参数在大部分样本中取值为0或1(默认值),这与实际生产过程中“大部分参数使用默认配方,少数情况需要微调”的业务逻辑高度吻合。这直接启发了后续特征工程中“稀疏特征分解”的策略。
    • 初步分析(对建模有价值的结论)
    a. 异常值与目标变量: ER(A/min) 的异常值(负值、极大值)均为无效记录,与真实业务无关,必须删除。
    b. 缺失值与业务逻辑: 大部分特征的缺失(零值)本身具有明确的业务含义(即“未使用”),因此采用填充默认值(0或1) 是比直接删除样本或插补更合理的方法。
    c. 特征稀疏性: 数据的极度稀疏性是核心特点之一。将稀疏特征分解为 “是否使用” 和 “使用多少” 两个特征,能更有效地帮助模型捕捉其业务意义,这是后续特征工程的关键方向。
  2. 数据质量
    核心内容:
    • 质量问题清单(按严重程度排序):
    问题类型
    涉及字段
    问题描述(数量/比例)
    影响评估

缺失值 (目标变量)
ER(A/min)
15个样本(0.69%)缺失
严重。因是预测目标,无法插补,直接删除样本。

缺失值 (系统性)
SRF2(W), CF4, O2 等38个参数
缺失率极高(88.25% - 92.93%),但代表“未使用”
高。但业务含义明确,需通过填充默认值处理,而非简单删除。

缺失值 (随机)
Tmi, Tmo, Ti, To
少量样本缺失(约1%)
中。经与工艺员确认,采用特定业务逻辑进行填充。

异常值
ER(A/min)
38个样本(1.74%)取值无效(非正或极大)
中。会一定程度扭曲模型训练。

• 数据一致性校验(如“样本间字段一致性”)
◦ 无相关问题。
• 完整性评估(是否覆盖所有关注目标)
◦ 数据覆盖了所有需要预测的刻蚀速率(ER(A/min)) 结果。
◦ 输入特征涵盖了机台采集的全部关键工艺参数(功率、电压、压力、气体流量、温度等),以及晶圆、型号、腔室等基础信息,特征集完整,能满足建模需求。

  1. 数据筛选与分析
    核心内容:
  2. 筛选依据
  3. 筛选步骤(数据过滤规则)
  4. 筛选后数据概况(样本量、字段数变化,与原始数据对比)
  5. 筛选合理性说明(为何此子集更适合建模)
  6. 数据清洗
    核心内容:
  7. 清洗策略(针对质量报告中的问题):
    问题类型
    处理方法
    处理后效果(比例变化)

缺失值
针对气体流量列,区分真实零值和确实占位零值

异常值
参数2:截断至99分位值
异常样本从5个降至0

  1. 清洗前后数据对比(核心字段分布变化,附图表)
  2. 特征工程
    核心内容:
  3. 特征列表(含原始特征、衍生特征):
    特征名
    来源(原始/衍生)
    加工逻辑
    业务含义

衍生
c1/c2

衍生

  1. 特征处理方法(归一化、编码方式、降维等)

  2. 特征重要性初步评估(如通过树模型筛选特征的依据)

  3. 模型评估数据准备
    核心内容:

  4. 数据集划分方法(如“7:3划分训练集/测试集,分层抽样保证目标分布一致”)

  5. 数据集详情(各子集样本量、目标变量分布)

  6. 验证策略(如交叉验证的折数、时间序列验证的时间节点)

  7. 算法选择说明
    本项目核心目标为精准预测刻蚀速率(ER(A/min)),属回归预测问题。在LightGBM与Sparse Multi-task Gaussian Process (SMTGP)的选型评估中,最终确定采用LightGBM算法,主要基于以下考量:

  8. 业务目标契合度: 本项目核心诉求为获得刻蚀速率的高精度点估计值。LightGBM作为梯度提升决策树模型,其优化目标直接针对最小化回归误差(如均方误差),与业务目标高度一致。相比之下,SMTGP作为一种贝叶斯概率模型,其优势在于提供预测不确定性估计,而非单一精确点估计,这与当前对预测准确性的首要需求存在偏差。

  9. 数据特性与模型假设适配性: 经特征工程处理后,数据集包含大量数值型及稀疏特征。LightGBM能够高效处理混合类型及稀疏数据,并有效捕捉特征间的复杂非线性关系。SMTGP采用RBF核函数,其性能对输入特征的尺度非常敏感(代码中进行了StandardScaler标准化),且其“多任务”设计旨在共享不同任务间的信息。然而,本项目的多个输出任务(Wafer type_encoded, Model type_encoded, chamber_encoded, ER(A/min))在物理含义和量纲上差异巨大,强行共享信息可能干扰核心任务(ER(A/min))的学习。

  10. 计算效率与资源成本: LightGBM具备训练速度快、内存占用低的优点,适用于快速迭代。SMTGP的计算复杂度随数据量增长而急剧上升(近似O(n³)),其变分推断虽然通过引入诱导点(num_inducing_points=200)降低了计算开销,但训练过程(training_iter=200)仍需进行大量迭代,且依赖GPU加速以获得可接受的训练时间,计算成本显著高于LightGBM。

  11. 初步结果验证: 预实验结果表明(如下文所示),SMTGP在核心预测任务ER(A/min)上未能有效学习,其性能表现远未达到应用标准,且在其他分类编码任务上的预测也无效,这证明了其模型假设在本数据集上可能不成立,进一步支持了LightGBM的选型决策。

  12. 模型训练参数
    LightGBM模型采用贝叶斯优化(Bayesian Optimization)框架进行超参数自动寻优,经过20轮迭代计算,以交叉验证平均均方误差(MSE)最小化为目标,确定了关键参数的最优配置。优化过程涵盖了影响模型性能与泛化能力的核心参数,包括学习率、树结构复杂度(叶子数量、深度、叶子最小样本数)以及正则化策略(特征与样本采样比例)。
    SMTGP模型采用变分推断进行近似训练,关键参数依据经验设置:潜在任务数(num_latents=2)、诱导点数量(num_inducing_points=200)、学习率(lr=0.01)及训练迭代次数(training_iterations=200)。

  13. 模型效果对比
    下表对比了经超参数寻优后的LightGBM模型与Sparse Multi-task Gaussian Process (SMTGP)模型在核心预测任务ER(A/min)上的性能指标。评估均采用5折交叉验证,结果为平均得分±标准差。
    模型
    平均MSE
    MSE标准差
    平均R²
    R²标准差

LightGBM (超参数寻优后)
854,090.78
±503,943.74
0.816
±0.095

Sparse Multi-task GP
6,498,967.58
±3,133,918.79
-0.002
±0.004

结果分析:
LightGBM模型的预测精度显著优于SMTGP模型,其均方误差(MSE)仅为后者的约13.1%,决定系数(R²)达到0.816,表明该模型能够解释目标变量81.6%的方差,具备优秀的预测能力。SMTGP模型的R²值为负,表明其预测效果逊于使用目标变量均值的简单基准模型,未能从数据中学到有效规律。
4. 最优模型确定
确定选择贝叶斯优化后的LightGBM模型作为最终模型,理由如下:

  1. 预测精度优越: 该模型在关键性能指标(MSE, R²)上均显著优于对比模型。
  2. 泛化能力可靠: 模型在交叉验证中表现稳定,其优异的R²值表明其学习规律具备良好的泛化性。
  3. 优化过程充分: 模型超参数经由系统化的贝叶斯优化流程确定,确保了模型性能达到当前数据状态下的最优水平。
  4. 结果有效性: 对比模型SMTGP在各项任务上均表现不佳,其输出结果无可应用价值,反衬出LightGBM结果的有效性与可靠性。
  5. 模型解释性分析
    对于LightGBM模型,可通过以下方式进行解释性分析:
  6. 特征重要性分析: 模型可提供基于分裂增益或频次的全局特征重要性排序,用以识别对预测刻蚀速率最为关键的影响因子(如特定功率、气体流量或压力参数)。
  7. 树结构可视化: 可抽取代表性决策树进行可视化,以追踪模型制定决策的具体路径,增强模型行为的可理解性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/947977.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!