机器学习模型处理不了原始文本。无论是线性回归、XGBoost还是神经网络,遇到
"red"
、
"medium"
、
"CA"
这类分类变量都没法直接处理。所以必须把它们转成数字这个过程就是分类编码。
大家入门时肯定都学过独热编码或序数编码,但编码方法其实非常多。目标编码、CatBoost编码、James-Stein编码这些高级技术,用对了能给模型带来质的飞跃,尤其面对高基数特征的时候。
https://avoid.overfit.cn/post/899f24e435ac4733ac4b981a0b3629f4