天池工业AI-第10名思路分享

关联比赛:  天池工业AI大赛-智能制造质量预测

赛题分析

    本次比赛提供了1000余个包含8000维特征的TFT-LCD(薄膜晶体管液晶显示器)生产样本数据,属于典型的小样本、多特征回归问题。

    该问题有如下痛点与挑战:

    1)TFT-LCD(薄膜晶体管液晶显示器)的生产过程较为复杂,包含几百道以上的工序。每道工序都有可能会对产品的品质产生影响,故算法模型需要考虑的

过程变量较多。

    2)另外,这些变量的取值可能会存在异常(如测点仪表的波动导致、设备工况漂移等现象),模型需要足够稳定性和鲁棒性。

    3)产线每天加工的玻璃基板数以万计,模型需要在满足较高的精准度前提下尽可能实时得到预测结果,这样才能给在实际生产中进行使用。
 
    通过分析可以初步得到几个在比赛中需要注意的问题:如何有效的进行降维以提取重要特征;如何有效处理数据中存在的异常值、缺失值;如何构建稳定性高、

泛化性能强的模型。

初赛

    通过对数据的初步探查可以发现,原始8000维特征中包含了两种类型的数据,一种是所用工台ID,另一种是工台对应每道工序的各种性能因子。并且各类性能因子特征分布以及取值多种多样,包含了大量的缺失值和异

常值,最关键的问题也是难点在于特征意义不明。

    所以针对这些问题数据预处理我分了下列步骤进行:

        1.缺失值采用均值填充。

        2.删除特征取值唯一的数据。

        3.删除类似日期之类的大值数据。

        4.采用4分法处理异常值,检测出的异常值用均值填充。

        5.异常值处理后再删除一次特征取值唯一的数据。

        6.删除重复的特征列。

        7.TOOL特征标签化处理。

        8.特征标准化(针对PCA方案)

模型方案

    方案一:由于只知道TOOL_ID是工序所用的工台,基于这个信息比赛初期我尝试了直接使用PCA暴力降维的方案。首先根据特征中的每个TOOL_ID将原始数据划分成若干子数据集,针对每个子数据集分别进行上述数据预处理,之后采用PCA降维,最后合并各个部分的PCA结果形成训练集。XGBoost模型训练下,该方案初期保持在60~70名左右,另外除了PCA我还尝试过LDA、Tsne降维方法,但最终效果差距不大,随着比赛越来越多的选手加入,该方案只退不进最终只能放弃。

    方案二:Pca等暴力降维的方法最大的问题就是舍弃了原始特征中包含的很多信息,并且变换后的特征缺少可解释性,所以之后特征筛选的方案,我主要考虑在不改变原始特征的前提下进行降维处理。该方案保留了方案一中分TOOL_ID处理的步骤,针对特征与目标变量的相关性分析,我使用了皮尔森系数、互信息、相对距离、方差等一系列考察相关性的指标进行特征筛选,同样在XGBoost模型下,该方案有了小幅度的上升,但是在数量如此多的特征条件下,仍然无法较好的挖掘出重要程度高的特征。

    方案三:同样在方案一分TOOL_ID的基础上,我使用了GBDT + Sklearn.SelectFromModel模型进行特征筛选,利用了GBDT自带的特征重要性方法筛选出了200个左右的特征,最后通过XGBoost训练,该方案让我得到了前排3天体验卡...

   方案三的大获成功给我指明了特征筛选的方向,相反也把我的思路限定在了GBDT + Sklearn.SelectFromMode框架下。利用该框架筛选出来的特征,我训练了随机森林、GBDT、lightgbm等模型,通过Stacking融合,初赛中后期能够一直保持在30名左右。在分数稳定下来后,依然是针对特征筛选问题我考虑能否在利用GBDT + Sklearn.SelectFromMode框架构造特征候选集的基础上,用启发式的方法再进行灵活的特征筛选,所以在比赛后期我使用了遗传算法进行优化。然而整体框架编写完后发现各个算子需要考虑的细节太多,结果随机性太强,比赛后期我也没有大量的时间来优化算法,最后的效果也只是保持住了当前的分数,所有后续我只用到适应性函数来辅助线下验证。

          该比赛基础遗传算法框架:

             1.整体种群设置了10左右的个体大小,每个个体的基因长度为候选特征集长度,基因编码采用0 1二进制法,随机生成基因序列初始化种群。

             2.适应函数采用10折线性回归结果。

             3.选择算子采用轮盘赌算法,选择该轮进化中适应性最高的个体。

             4.交叉算子采用两端交叉法,随机选择父本和母本的一段基因序列进行交换。

             5.变异算子采用随机变异法,初始设定变异概率阈值,每个个体生成一个随机数,若随机数小于阈值,则对应个体的随机基因点进行取反变异。

         tips:

             实际使用时发现,轮盘赌算法在数轮进化后,所有个体最终的适应性值趋于一致,但是该值并不是最优结果,可能由于在每轮进化中最优个体没有保存下来,而产生的最优个体在轮盘赌中被洗牌。这里的选择算子可考虑换成锦标赛算法等。

             适应性函数中使用线性回归主要是考虑缩短时间,这里应该使用树形模型作为适应性评价模型,以保持和特征选择所使用的模型一致。

             交叉算子所使用的两端交叉,与两个端点的随机选择直接相关,端点距离太远可能导致重要特征被替换,距离太近导致无法实现交叉的效果,这个可以考虑更加灵活的交叉方法,比如固定长度单段交叉、固定长度多段交叉等等。

             变异算子主要是变异阈值的选取,可以通过增加种群个体数量,增加遗传轮次进行调整。

             关于遗传算法的几个关键算子,还有很多方法和技巧...在后续的比赛中争取再优化调整。

    其他方案:初赛最后几天受到交流群的启发,我考虑既然数据中包含了大量的异常值,那么直接把这些异常率高的特征取出来,说不定有奇效。所以这个方案中我结合四分位和孤立森林检测异常值的方法,筛选了一部分大约100个左右的异常率较高的特征进行训练,结果。。。。和我想象的大相径庭。这个方案中还有局部异常因子检测异常值的方法,碍于尚未理解并没有实现。

复赛

     初赛换B榜数据时由于Stacking模型过于复杂,加上各种操作,直接导致A榜过拟合严重,最终大起大落120名进到复赛。。本着模型越简单越好的原则,复赛仅采用以下流程:

        1.缺失值采用均值填充。

        2.删除特征取值唯一的数据。

        3.删除类似日期之类的大值数据。

        4.采用4分法处理异常值,检测出的异常值用均值填充。

        5.异常值处理后再删除一次特征取值唯一的数据。

        6.TOOL特征标签化处理。

        7.删除方差小于0.5的特征数据。
 
        8.
GBDT + Sklearn.SelectFromMode筛选特征。

        9.XGBoost单模型预测。

      这一套框架出乎意料在复赛整个周期都保持在了前20。直到复赛换B榜评测时,我才加上了初赛的Stacking模型,最终排名第十。

总结

    这个比赛算是我第一个完整参加的比赛吧,也是我第一次写这样的帖子,希望能和大家多多交流,写的不好的地方,也希望大家见谅。从初赛惊心动魄的摸奖,到复赛的大起大落,一个月来看着各路大神的骚操作真是收货颇多,决赛的答辩真是目瞪口呆,更是让我深刻的感受到什么叫奥卡姆剃刀原则和特征决定上限两句话。而这次比赛中最大的失败在于全程被GBDT+SelectFromMode限定了思路,居然完全没有想到使用xgb或者lgb进行特征重要性筛选;另外由于初赛中Stacking严重的过拟合,也让我在复赛中完全不敢使用,直到复赛最后两天,穷途末路回想起初赛的Stacking的确让我上了一波分,怀着赌一把的心态直接照搬的初赛的模型,最后的结果也算是为Stacking正名了吧。最后,通过这次比赛也让我感受到,更多的交流沟通才能够汇集更好的方法思路最终更好的解决问题,希望在今后的比赛中能继续和大家不断学习,共同进步。


最后附上代码地址:https://github.com/aiaiyueq11/Tianchi-Industry-AI

查看更多内容,欢迎访问天池技术圈官方地址:天池工业AI-第10名思路分享 附源码_天池技术圈-阿里云天池

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/50797.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

用C#写一个随机音乐播放器

form1中namespce里的代码如下 public partial class Form1 : Form {public Form1(){InitializeComponent();}private void button1_Click(object sender, EventArgs e){string folder textBox1.Text;string folderPath folder; // 指定音频文件所在的文件夹路径OpenRandomFi…

vue项目上线打包后出现的问题

1、出现空白页 1.1 打包路径: module.exports {publicPath:./, //修改为绝对路径 } 修改完打包路径后build可以展示页面 1.2 路由模式: 项目上线要求是history模式,需要后端做重定向 前端自测可以使用h…

JavaWeb笔记_FilterListener

一.过滤器 1.1 过滤器概述 过滤器主要用来拦截目标资源(静态资源或动态资源)的请求和响应 (类似地铁的安检) 我们访问动态或静态资源都要通过URL访问:http://localhost:8080/... 所以过滤器本质上拦截的是URL 1.2 过滤…

详解Qt事件过滤器

文章目录 前言什么是事件过滤器事件过滤器的作用为什么要使用事件过滤器事件过滤器的基本用法示例代码一:基本事件过滤器示例代码二:过滤键盘事件示例代码三:多对象事件过滤 总结 前言 Qt 提供了一个强大的机制来处理和管理事件,…

Git 使用与问题解决指南20240729

Git 使用与问题解决指南 引言 Git 是一个强大的分布式版本控制系统,用于跟踪项目中的更改。它在协作开发、代码管理和版本控制中发挥着至关重要的作用。本文将总结常见的 Git 问题及其解决方案,并提供一些最佳实践,以帮助开发者更高效地使用…

dps或者ppt文件判断是否加密

doc文件是否加密可以通过fib来判断,例如 同样的方法判断ppt也可以,但是在判断wps保存的dps文件时,提示没有加密,文件双击打开时又需要密码,查看ppt格式文档有下面发现 查看文件的二进制发现了加密标识 后面再研究doc x…

OpenCV图像滤波(4)构建图像金字塔函数buildPyramid()的使用

操作系统:ubuntu22.04 OpenCV版本:OpenCV4.9 IDE:Visual Studio Code 编程语言:C11 算法描述 在计算机视觉和图像处理中,构建图像金字塔(Image Pyramid)是一种常用的技术,它生成一系列分辨率逐…

中英两国的数学课程具体有哪些不同?

在我们英国小留学生的眼中,数学大概是唯一一门不需要提前复习或者预习的学科。 有学生说,他们追求的不一定是用最简或者最快的办法解决数学问题,而是喜欢把所有推理步骤都展开,一点一点地推论出结果... 这样的感觉其实就反映出中…

CISAW信息安全保障人员认证是否值得学习?

CISAW信息安全保障人员认证的学习难度因人而异。 如果考生具备足够的学习能力以及丰富的信息安全工作经验,那么考试的难度可能会相对较低。 相反,如果考生缺少这些条件,学习难度可能会相对较高。 1. 从考试内容来看,CISAW以概念…

Neutralinojs教程项目实战初体验(踩坑指南),干翻 electron

Neutralinojs 项目实战初体验(踩坑指南),干翻 electron Neutralinojs 官方文档 卧槽卧槽,!这个年轻人居然用浏览器把电脑关机了_哔哩哔哩_bilibili正是在下 本教程搭建的是纯原生项目,没有和其它前端框架…

简单快捷!Yarn的安装与使用指南

Yarn 是由 Facebook (现 Meta) 开发的包管理工具。 今天,我将介绍如何使用 Yarn。 目录 Yarn 的官方网站 关于安装 版本确认 开始一个新项目(创建 package.json 文件) 安装软件包 升级包 运行脚本 执行包的命令 卸载包 总结 Yarn 的…

低代码平台在采购管理中的革新与应用

引言 随着企业数字化转型的不断推进,传统的企业软件开发模式面临着诸多挑战。开发周期长、成本高、需求变更频繁等问题使得企业在快速变化的市场中难以保持敏捷性。低代码平台作为一种新的开发模式,凭借其“低代码”甚至“零代码”的特性,极大…

钉钉小程序如何通过setdate重置对象

在钉钉小程序中,通过setData方法来重置对象(即更新对象中的数据)是一个常见的操作。然而,需要注意的是,钉钉小程序(或任何小程序平台)的setData方法在处理对象更新时有一些特定的规则和最佳实践…

APT 安装软件详细教程

文章目录 APT 安装软件详细教程APT 概述APT 的基本命令APT 命令详解安装软件包更新和升级软件包删除软件包搜索和查找软件包管理软件包依赖清理软件包缓存APT 配置软件源配置自定义软件源常见问题及解决方案解决软件包依赖问题处理软件源错误其他常见问题使用 APT 的最佳实践总…

词的向量化和文本向量化

词的向量化和文本向量化 向量化one-hot编码提前准备词表不提前准备词表one-hot缺点 词向量简介词向量的定义和目标word embedding和word vector的区别onehot编码与词向量关系构建 训练方式1(基于语言模型)训练方式2(基于窗口)CBOW…

Pthread条件变量同步

前面说到用互斥量做同步结果不怎么理想。因为OS系统对线程调度随机的。自己实现的resume/yield 原语不是原子的。操作系统可以扣住原语中的一部分语句搁置起来。这可以导致实际运行中,两个原语对sched互斥量的上锁、解锁,以逆序的方式出现。这时&#xf…

选择排序思路和算法实现

选择排序 在未排序的数组中,用第一个数去和后面的数比较,找出最小的数,和第一个数交换。第一个数已为已排序的数。 相当于0~7 从0~7中找到最小的数放在0 从1~7中找到最小的数放在1 从2~7中找到最小的数放在2 ...以此类推 从6~7中找到最…

JAVA学习-练习试用Java实现“最长有效括号”

问题: 最长有效括号 给定一个只包含 ( 和 ) 的字符串,找出最长有效(格式正确且连续)括号子串的长度。 示例 1: 输入:s "(()" 输出:2 解释:最长有效括号子串是 "(…

从简单到复杂:9款画底纹软件让设计更生动

底纹不知道怎么画?快来试一试这9款软件吧,可以让你的设计作品更加出彩,相信我,用了就是赚到,分别是即时设计、Adobe Illustrator、CorelDRAW、Photoshop、AutoCAD、Inkscape、GIMP、ZebraDesigner、LabelJoy。 1、即时…

软件定义AI算力:解锁AI算力的新时代

从1964年发明CPU——即IBM System 360发布的那一年算起,已经过去60年,我们已经从传统的CPU算力时代跨越到了以GPU算力为代表的加速计算时代。尤其是随着大模型的广泛应用和AIGC技术的崛起,行业对GPU等AI算力的需求呈现出爆炸式的增长。据华为…