- 数据预处理
- 选取 Pclass (船舱等级)、 Sex (性别)、 Age (年龄)作为特征, Survived (是否存活)作为标签。
- 用均值填充年龄空值,避免缺失值影响模型训练;通过 pd.get_dummies 做独热编码,将分类特征转为数值特征。
- 模型对比
- 单决策树作为基准模型,验证弱学习器的效果。
- 随机森林通过多棵决策树的Bagging集成,通常能显著提升准确率。
- 参数优化
- 网格搜索 n_estimators (决策树数量)和 max_depth (树的最大深度),结合交叉验证选择最优参数,进一步提升模型性能。