结合基于标签置信度的特征选择方法用于部分多标签学习-简介版

假设

部分多标签学习（PML）假设：假设样本的标签集合中存在伪正标签，即某些标签可能是错误的。目标是从候选标签集中识别出真实标签。
特征与标签的关系假设：假设不同的标签对应的特征子空间可能是不同的，而不是所有标签共享相同的特征空间。

技术路线

论文提出了一种新的基于标签置信度的特征选择方法（LCFS-PML），其核心技术路线包括：

计算标签置信度：通过以下两个指标评估标签是否可靠：
- 同标签样本的平均距离（ $d_{\text{avg}}$ ）：同一标签的样本之间的平均距离，距离越小说明标签越可靠。
- 到聚类中心的距离（ $d_C$ ）：样本到该标签的聚类中心的距离，距离越小说明标签置信度越高。
特征与标签的联合优化：
- 在每个标签的独特特征子空间中计算标签置信度，并去除低置信度的伪标签。
- 通过优化特征子空间来进一步提升标签置信度，使特征和标签相互优化。
交替优化策略：
- 先优化特征子空间：去除冗余和歧义特征，提高分类能力。
- 再优化标签置信度：基于优化后的特征重新计算标签置信度，并筛选掉伪正标签。
- 不断循环迭代，直到达到收敛。

创新点

引入标签置信度评估方法：
- 结合 同标签样本的平均距离 和 样本到聚类中心的距离，更准确地评估标签的真实性。
提出基于标签的特征选择策略：
- 不是所有标签共享相同的特征空间，而是为每个标签建立单独的最优特征子空间，提高了学习的精度。
采用特征-标签交替优化策略：
- 在特征优化和标签优化之间形成一个闭环，使两个过程相互促进，提高模型的稳定性和鲁棒性。

数学公式

标签置信度计算：
- 同标签样本的平均距离：

$d_{\text{avg}, i, l} = \frac{1}{K} \sum_{j=1}^{K} d(f_i^l, f_j^l)$
其中， $f_i^l$ 表示第 $i$ 个样本在标签 $l$ 对应的特征子空间中的表示， $K$ 为最近邻样本数量。

到聚类中心的距离：

$d_{C, i, l} = \min_{c \in C_l} d(f_i^l, c)$
其中， $C_l$ 是标签 $l$ 的聚类中心集合。

标签置信度公式：

$T_{i, l} = \exp\left( \frac{-(1 + \lambda) \cdot d_{\text{avg}} \cdot d_C}{\lambda d_{\text{avg}} + d_C} \right)$
其中， $\lambda$ 是一个权重参数，用于平衡两种距离的影响。

优化目标函数：
- 联合优化特征和标签：

$\min_{\mathbf{W}, \mathbf{S}} \| \mathbf{X} (\mathbf{W} + \mathbf{S}) - \mathbf{L} \|_F^2 + \alpha \| \mathbf{X} \mathbf{W} - \mathbf{L}^* \|_F^2 + \beta \| \mathbf{W} \|_{2,1} + \gamma \| \mathbf{S} \|_1$
其中：
- $\mathbf{W}$ 是特征-标签映射矩阵。
- $\mathbf{S}$ 是用于去除冗余特征的稀疏矩阵。
- $\mathbf{L}$ 是原始带噪声的标签矩阵，而 $\mathbf{L}^*$ 是经过优化的真实标签矩阵。
- $\alpha, \beta, \gamma$ 是超参数，用于平衡不同损失项的影响。

技术实现细节

初始化：
- 计算完整特征空间中的标签置信度矩阵 $T$ 。
- 设定特征选择比例 $p$ ，用于筛选出每个标签的关键特征子集。
交替优化过程：
- 优化特征选择矩阵 $W$ ：
  - 通过梯度下降法优化 $W$ ，确保其稀疏性，降低特征冗余度。
- 优化噪声标签矩阵 $S$ ：
  - 采用 交替方向乘子法（ADMM） 解决优化问题，使 $S$ 具有良好的稀疏性。
- 更新标签置信度矩阵 $T$ ：
  - 计算每个标签的最佳特征子空间，并在该子空间中重新评估标签置信度。
迭代收敛：
- 不断重复上述步骤，直到目标函数的损失值收敛。

实验与结论

数据集：在多个真实世界数据集（如 Music_emotion, Mirflickr, YeastBP）和合成数据集上进行实验。
对比方法：
- LSNRFS：基于标签-特征相关性的特征选择方法。
- PML-FSSO：采用低维子空间来进行特征选择。
- PML-LD：通过重构标签分布进行部分多标签预测。
- PAMB：将 PML 问题转化为多个二分类问题进行优化。
- ML-KNN：基于 K 近邻的方法进行多标签分类。
实验结果：
- 在多个数据集上，LCFS-PML 的性能优于现有方法：
  - Micro-F1、AP（平均精度）提高显著，表明分类质量更优。
  - HL（汉明损失）降低，说明减少了错误分类。
  - One-error 降低，表明该方法能更准确地预测最可能的正确标签。
消融实验分析：
- 去除标签置信度计算后（LCFS-A），模型性能显著下降，说明标签置信度是关键因素。
- 去除标签-特征映射后（LCFS-B），优化过程不稳定，验证了特征子空间优化的重要性。
收敛性分析：
- 目标函数的损失值在 20-30 次迭代后趋于稳定，表明优化过程收敛快速。
计算复杂度：
- 时间复杂度 约为 $O(n^2d + ndl + l^2d)$ ，其中 $n$ 是样本数， $d$ 是特征维度， $l$ 是标签数。