mmlspark.lightgbm.LightGBMClassifier 是一个用于二元分类和多类分类的机器学习模型,它是基于 Microsoft ML for Apache Spark (MMLSpark) 库的。这个类是为了在Spark环境中使用LightGBM实现,提供了大量的参数用于调整模型。下面是一些主要参数的详细中文描述:
-  baggingFraction (float): Bagging的比例,用于控制每次迭代时数据的采样比例。 
-  baggingFreq (int): Bagging的频率,表示每几次迭代执行一次bagging。 
-  baggingSeed (int): Bagging的随机种子。 
-  binSampleCount (int): 在计算直方图bins时考虑的样本数量。 
-  boostFromAverage (bool): 是否将初始分数调整为标签的平均值以加快收敛速度。 
-  boostingType (object): Boosting类型,默认为 gbdt(梯度提升决策树)。可选项包括gbdt、gbrt、rf(随机森林)、dart(Dropouts meet Multiple Additive Regression Trees)、goss(基于梯度的单边采样)等。
-  categoricalSlotIndexes (list): 分类列的索引列表,即特征列中的槽位索引。 
-  categoricalSlotNames (list): 分类列槽位名称的列表,即特征列中的槽位名称。 
-  chunkSize (int): 用于指定将Java数据复制到原生时的块大小。如果设置过高,可能会浪费内存;如果设置过低,可能会降低数据复制的性能。 
-  earlyStoppingRound (int): 早停轮数,如果一定数量的迭代中,评估指标没有改善,则停止训练。 
-  featureFraction (float): 特征采样比例,用于每次迭代时随机选择部分特征进行训练,以减少过拟合。 
-  featuresCol (object): 特征列名称。 
-  learningRate (float): 学习率或收缩率。 
-  maxDepth (int): 树的最大深度。 
-  minDataInLeaf (int): 一个叶子节点上的最小数据数量,可以用来处理过拟合。 
-  numIterations (int): 迭代次数,LightGBM会构建 num_class * num_iterations棵树。
-  numLeaves (int): 叶子的数量,过多会增加模型复杂度,可能导致过拟合。 
-  objective (object): 目标函数,对于回归问题可以是 regression_l2、regression_l1等,对于分类问题可以是binary、multiclass等。
-  predictionCol (object): 预测结果的列名。 
-  probabilityCol (object): 预测概率的列名,注意,并非所有模型都输出校准良好的概率估计。 
-  rawPredictionCol (object): 原始预测(即置信度)的列名。 
 当然,接着前面的介绍,这里补充其他一些关键参数的详细描述:
-  lambdaL1 (float): L1正则化项,用于控制模型的复杂度,防止过拟合。 
-  lambdaL2 (float): L2正则化项,同样用于控制模型的复杂度,防止过拟合。 
-  leafPredictionCol (object): 预测叶节点索引的列名。 
-  matrixType (object): 指定构建的原生LightGBM矩阵是稀疏还是密集的,选项包括 auto(自动),sparse(稀疏)或dense(密集)。默认值是auto,会根据前十行数据来决定类型。
-  maxBin (int): 最大的bin数量,用于特征分割。 
-  maxBinByFeature (list): 每个特征的最大bin数量。 
-  maxDeltaStep (float): 用于限制树叶输出的最大值。 
-  maxDrop (int): 在一次boosting迭代中丢弃的最大树的数量。 
-  metric (object): 在评估数据上要评估的指标。 
-  minGainToSplit (float): 执行分割的最小增益。 
-  minSumHessianInLeaf (float): 一个叶子节点上的最小Hessian之和。 
-  modelString (object): 用于再训练的LightGBM模型字符串。 
-  negBaggingFraction (float): 负Bagging比例。 
-  numBatches (int): 如果大于0,在训练时将数据分成几个批次。 
-  parallelism (object): 树学习的并行模式,可以设置为 data_parallel或voting_parallel。
-  posBaggingFraction (float): 正Bagging比例。 
-  repartitionByGroupingColumn (bool): 按分组列重新分配训练数据,默认开启。 
-  skipDrop (float): 在boosting迭代中跳过dropout过程的概率。 
-  slotNames (list): 特征列中槽位的名称列表。 
-  thresholds (list): 在多类分类中调整预测每个类的概率的阈值。数组长度必须等于类的数量,值必须大于0,但最多有一个值可以是0。 
-  timeout (float): 超时时间,以秒为单位。 
-  topK (int): 在Voting parallel中使用的top_k值,设置更大的值可以得到更准确的结果,但会减慢训练速度。必须大于0。 
-  uniformDrop (bool): 在dart模式中设置为true以使用均匀drop。 
-  useBarrierExecutionMode (bool): 使用屏障执行模式,该模式使用屏障阶段,默认关闭。 
-  useSingleDatasetMode (bool): 使用单数据集执行模式来创建每个执行器上的单个原生数据集(单例),以减少内存和通信开销。注意在本地模式运行spark时此功能被禁用。 
-  validationIndicatorCol (object): 指示该行是用于训练还是验证的。 
-  verbosity (int): 详细程度,小于0是Fatal,等于0是Error,等于1是Info,大于1是Debug。 
-  weightCol (object): 权重列的名称。 
-  xgboostDartMode (bool): 设置为true以使用xgboost的dart模式。 
这些参数为用户提供了广泛的灵活性来定制和优化模型,以适应不同的数据特征和业务需求。
 这些参数允许用户根据具体的数据集和任务需求调整模型的行为,以达到最佳的模型性能。