降维（DimensionalityReduction）基础知识2

文章目录

五、基于局部结构保持的降维
- 1、Laplacian Eigenmaps（拉普拉斯特征映射）
- - （1）邻接矩阵
  - （2）图论基础
  - （3）Laplace算子
  - - 1、散度（Divergence）
    - 2、拉普拉斯算子
    - 3、二维离散拉普拉斯算子
    - 4、拉普拉斯算子 → 拉普拉斯矩阵
  - （4）图论基础（续）
  - - 1、Laplace矩阵 $L$ ： $L = D - W$
    - 2、Laplace矩阵的性质1证明
    - 3、Laplace矩阵的性质3
    - 4、Laplace矩阵的性质4
  - （5）图论基础与拉普拉斯矩阵示例
  - （6）规范化的拉普拉斯矩阵
  - - 1、对称 Laplace 矩阵
    - 2、随机游走 Laplace 矩阵
    - 3、性质
  - （7）规范化的拉普拉斯矩阵的应用
  - （8）降维
  - （9）构建特征映射
  - （10）尺度不变性
  - （11）优化目标
  - （12）广义特征值问题
  - （13）目标函数优化
  - （14）构建 $D^{'} > 1$ 特征映射
  - （15）目标函数
  - （16）例：拉普拉斯特征映射
- 2、t-NSE
- - （1）t-SNE 概述
  - （2）维数灾难
  - （3）SNE：随机邻居嵌入
  - （4）对称SNE
  - （5）参数 $\sigma_i$ 与困惑度（Perplexity）
  - （6）困惑度的应用
  - （7）t-SNE
  - - 1、高维到低维映射
    - 2、目标函数
  - （8）为什么使用t分布？
  - - 1、t分布与正态分布的比较
    - 2、拥挤问题
    - 3、更长尾分布的效果
    - 4、概率距离图
  - （9）目标函数
  - - 1、KL散度（Kullback-Leibler Divergence）
  - （10）目标函数的优化求解
  - - 1、目标函数
    - 2、梯度下降法
  - （11）t-SNE超参数 $\sigma_i$ 的影响
  - - 1、混淆度（Perplexity）：每个点的局部邻居的数目
    - 2、高维空间中的高斯分布用基于KNN的均匀分布代替
  - （12）t-SNE的缺点
  - - 1、时间、空间复杂度为 $O(N^2)$
  - （13）t-SNE中簇之间的距离并不表示相似度
- 3、UMAP
- - （1）均匀流形逼近和投影（Uniform Manifold Approximation and Projection，UMAP）
  - （2）UMAP基本思想
  - - 1、基本思想
    - 2、UMAP两个主要步骤：
  - （3）高维空间的流形结构
  - - 1、寻找K近邻
  - （4）边的权重
  - - 1、权重计算
  - （5）局部连接
  - - 1、局部连接性
  - （6）对称的边的权重
  - - 1、边的权重计算
  - （7）低维表示
  - - 1、参数min_dist
  - （8）目标函数
  - - 1、交叉熵
    - 2、安装UMAP
    - 3、安装命令
五、总结
- 1、降维方法总结
- 2、sklearn中的降维方法
- - （1）降维方法列表
  - （3）MNIST数据集上的降维结果
六、参考文献
- 1、参考文献列表

五、基于局部结构保持的降维

1、Laplacian Eigenmaps（拉普拉斯特征映射）

令 $x_1, x_2, ..., x_N \in \mathbb{R}^D$ ，构造相似性图，表示结点之间的邻接关系：

- $\varepsilon$ 邻域
- $K$ 近邻

通过对图的拉普拉斯矩阵进行特征值分解，得到映射(eigenmap)

（1）邻接矩阵

邻接矩阵（Affinity matrix） $W$ 的元素 $w_{ij}$ 表示结点 $v_i$ 和 $v_j$ 的相似度，即为边 $e_{ij}$ 的权重。

通常两个结点之间的相似度可取：
$w_{ij} = \exp\left(-\frac{\|x_i-x_j\|^2}{\sigma^2}\right)$
其中 $\sigma^2 \in \mathbb{R}^+$

$\sigma$ 可设置为数据点到其KNN的平均距离：
$\sigma = \frac{1}{N} \sum_{i=1}^N \left\|x_i - x_i^{(KNN)}\right\|$
$K$ 通常可取6～10

在文档分析中，两个结点之间的相似度可取余弦相似度。

（2）图论基础

邻接矩阵 $W$ ：所有点之间的权重值 $w_{ij}$ ，构成图的邻接矩阵 $W$ ，这是一个 $\times N$ 的对称矩阵。

度矩阵 $D$ ：每个结点的度构成 $\times N$ 的度矩阵 $D$ 。

- 结点 $v_i$ 的度 $d_i$ 定义为和它相连的所有边的权重之和，即：
$d_i = \sum_{j=1}^N w_{ij}$

- $D$ 是对角矩阵，第 $i$ 行的主对角线元素值，为结点 $v_i$ 的度数：
$\begin{pmatrix} d_1 & 0 & \cdots & 0 \\ 0 & d_2 & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & d_N \end{pmatrix}$
在这里插入图片描述

（3）Laplace算子

拉普拉斯算子是n维欧几里得空间中的一个二阶微分算子，定义为梯度的散度。

梯度：梯度“ $\nabla$ ”是一个矢量，表示某一函数在该点处的方向导数沿着该方向取得最大值，即函数在该方向处沿着此梯度方向变化最快，变化率最大。

例如：假设一个三元函数 $u = f (x, y, z)$ 在空间区域 $G$ 内具有一阶连续偏导数，点 $P(x,y,z)\in G$ ，则称以下向量表示为点 $P$ 处的梯度：
$\nabla f(x,y,z)=\left(\frac{\partial f}{\partial x},\frac{\partial f}{\partial y},\frac{\partial f}{\partial z}\right)^{\text{T}}$
亦被称为向量的微分算子或者Nabla算子。

1、散度（Divergence）

散度（divergence）“ $\nabla \cdot$ ”是一个标量，用于表示空间中各点向量场发散的强弱程度。散度是作用在向量场上的一个算子。

例如：在三维空间中，向量场就是在空间中每一点处都对应一个三维向量的向量函数：
$\mathbf{F}(x, y, z) = \begin{pmatrix} v_1(x, y, z) \\ v_2(x, y, z) \\ v_3(x, y, z) \end{pmatrix}^{\text{T}}$
散度为：
$\text{div}(\mathbf{F}) = \frac{\partial v_1}{\partial x} + \frac{\partial v_2}{\partial y} + \frac{\partial v_3}{\partial z}$
物理上，散度的意义是场的有源性。当 $\text{div}(\mathbf{F}) > 0$ ，表示该点有散发通量的正源（发散源）；当 $\text{div}(\mathbf{F}) < 0$ ，表示该点有吸收能量的负源（洞或汇）；当 $\text{div}(\mathbf{F}) = 0$ ，表示该点无源。

2、拉普拉斯算子

拉普拉斯算子“ $\Delta$ ”是n维欧几里得空间中的一个二阶微分算子，定义为梯度（ $\nabla f(x, y, z)$ ）的散度（ $\nabla \cdot$ ），即：
$\Delta f = \text{div}(\nabla f(x, y, z)) = \frac{\partial^2 f}{\partial x^2} + \frac{\partial^2 f}{\partial y^2} + \frac{\partial^2 f}{\partial z^2}$

离散形式：
$\frac{\partial f}{\partial x} = f(x+1) - f(x)$
$\frac{\partial^2 f}{\partial x^2} = f'(x) - f'(x-1) = f(x+1) - f(x) - [f(x) - f(x-1)] = f(x+1) + f(x-1) - 2f(x)$

3、二维离散拉普拉斯算子

在这里插入图片描述

二维离散拉普拉斯算子：
$\Delta f = \frac{\partial^2 f}{\partial x^2} + \frac{\partial^2 f}{\partial y^2}$
$= f (x + 1, y) + f (x - 1, y) - 2 f (x, y) + f (x, y + 1) + f (x, y - 1) - 2 f (x, y)$
$= f (x + 1, y) + f (x - 1, y) + f (x, y + 1) + f (x, y - 1) - 4 f (x, y)$
拉普拉斯算子计算周围点与中心点的差。

4、拉普拉斯算子 → 拉普拉斯矩阵

在这里插入图片描述

假设具有 $N$ 个节点的图 $G$ ，节点 $i$ 的邻域为 $N_i$ ，图上定义一个函数 $f = (f_1, f_2, ..., f_N)$ ，其中 $f_i$ 表示函数 $f$ 在节点 $i$ 处的函数值。

设节点 $i$ 与节点 $j$ 之间连边 $e_{ij}$ 的权值为 $w_{ij}$ ，则图 $G$ 上的拉普拉斯算子为：
$\Delta f_i = \sum_{j \in N_i} w_{ij}(f_i - f_j)$
假设节点 $i$ 与节点 $j$ 不相邻时 $w_{ij} = 0$ ，将上面的式子进行简化：
$\Delta f_i = \sum_{j \in N_i} w_{ij}(f_i - f_j) = f_i \sum_{j \in N_i} w_{ij} - \sum_{j \in N_i} w_{ij}f_j$

其中：
$d_i = \sum_{j \in N_i} w_{ij} = \sum_{j=1}^N w_{ij} \quad \text{表示节点} i \text{的度}$
$w_{i:}$ 是N维的行向量，表示邻接矩阵 $W$ 的第 $i$ 行。

对于所有的 $N$ 个节点有：
$\Delta \mathbf{f} = \begin{pmatrix} \Delta f_1 \\ \Delta f_2 \\ \vdots \\ \Delta f_N \end{pmatrix} = \begin{pmatrix} d_1 f_1 - w_{1:} \mathbf{f} \\ d_2 f_2 - w_{2:} \mathbf{f} \\ \vdots \\ d_N f_N - w_{N:} \mathbf{f} \end{pmatrix} = \begin{pmatrix} d_1 & 0 & \cdots & 0 \\ 0 & d_2 & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & d_N \end{pmatrix} \mathbf{f} - \begin{pmatrix} w_{1:} \\ w_{2:} \\ \vdots \\ w_{N:} \end{pmatrix} \mathbf{f}$
令邻接矩阵 $W$

$\quad \text{表示图的拉普拉斯矩阵}$
$\mathbf{f} = L \mathbf{f}$

（4）图论基础（续）

1、Laplace矩阵 $L$ ： $L = D - W$

对于任意的向量 $\mathbf{f}$ ：
$\mathbf{f}^{\text{T}} L \mathbf{f} = \frac{1}{2} \sum_{i,j=1}^N w_{i,j}(f_i - f_j)^2$

拉普拉斯矩阵 $L$ 是半正定的，且对应的 $N$ 个实数特征值都大于等于 0，即 $\lambda_1 \leq \lambda_2 \leq \cdots \leq \lambda_N \quad (L \mathbf{v} = \lambda \mathbf{v})$

- $L$ 的最小特征值是 0，且特征值 0 所对应的特征向量为全 1 向量；
- $L$ 的特征值中 “0” 出现的次数是图连通区域的个数。

2、Laplace矩阵的性质1证明

证明：
$\mathbf{f}^{\text{T}} L \mathbf{f} = \mathbf{f}^{\text{T}} D \mathbf{f} - \mathbf{f}^{\text{T}} W \mathbf{f}$
$\sum_{i=1}^N d_i f_i^2 - \sum_{i,j=0}^N w_{i,j} f_i f_j$
$\frac{1}{2} \left( \sum_{i=1}^N d_i f_i^2 - 2 \sum_{i,j=1}^N w_{i,j} f_i f_j + \sum_{j=1}^N d_j f_j^2 \right)$
$\frac{1}{2} \sum_{i,j=1}^N w_{i,j}(f_i - f_j)^2 \geq 0$
$L$ 刻画图信号局部平滑度

3、Laplace矩阵的性质3

拉普拉斯矩阵的最小特征值是 0，且对应的特征向量为全 1 向量。

证明：根据定义： $d_i = \sum_{j=1}^N w_{ij}$

$L = D - W$

令 $\mathbf{v} = \mathbf{1}$ （元素值全为 1），

$\mathbf{v} = D \mathbf{v} - W \mathbf{v} = \begin{pmatrix} d_1 \\ d_2 \\ \vdots \\ d_N \end{pmatrix} - \begin{pmatrix} d_1 \\ d_2 \\ \vdots \\ d_N \end{pmatrix} = \begin{pmatrix} 0 \\ 0 \\ \vdots \\ 0 \end{pmatrix} = 0 \times \mathbf{v}$

根据特征值和特征向量的定义（ $\mathbf{v} = \lambda \mathbf{v}$ ）， $L$ 有一个特征值为 0，且其对应的特征向量为 1（元素值全为 1）。

4、Laplace矩阵的性质4

特征值中 0 出现的次数就是图连通区域的个数。

证明：首先考虑 $k = 1$ ：即图是全连通的。

假设 $\mathbf{f}$ 是特征值 0 的对应特征向量（ $\mathbf{f} = 0 \times \mathbf{f} = 0$ ），那么：
$\mathbf{f}^{\text{T}} L \mathbf{f} = \frac{1}{2} \sum_{i,j=1}^N w_{ij}(f_i - f_j)^2$
$\begin{cases} w_{ij} > 0 \\ \sum_{i,j=1}^N w_{ij}(f_i - f_j)^2 = 0 \end{cases}$
$\Rightarrow \forall i, j = 1, 2, ..., N, \, f_i = f_j$
即 $\mathbf{f}$ 在连通部件上是常数向量 1，这显然是连通分量的指示向量。

$L$ 的特征值中 “0” 出现的次数是图连通区域的个数。

将结点按其所属的连通部件排序，此时 $W$ 具有块对角形式， $L$ 也是块对角形式：

$\begin{pmatrix} L_1 & & \\ & L_2 & \\ & & \cdots & L_k \end{pmatrix}$

每个块 $L_i$ 都是第 $i$ 个连通子图的拉普拉斯矩阵：每个 $L_i$ 都有 1 个特征值 0，对应的特征向量是第 $i$ 个连通分量上的常数向量：
$\mathbf{v}_i = (0, 0, ..., 0, 1, 1, ..., 1, 0, 0, ..., 0)^{\text{T}}$ 其中 1 的对应第 $i$ 连通子图 $L_i$
$\mathbf{v}_1 = (1, 1, ..., 1, 0, 0, ..., 0, 0, 0, ..., 0)^{\text{T}}$
$\mathbf{v}_2 = (0, 0, ..., 0, 1, 1, ..., 1, 0, 0, ..., 0)^{\text{T}}$
$\mathbf{v}_k = (0, 0, ..., 0, 0, 0, ..., 0, 1, 1, ..., 1)^{\text{T}}$
$\mathbf{v}_i = 0, \, i = 1, 2, ..., k$ ：所以 $\mathbf{v}_i$ 是 0 特征值对应的特征向量

$L$ 的谱由 $L_i$ 的谱的联合给出：矩阵 $L$ 的特征值 0 的数目与连通分量的数目相同，相应的特征向量为连通分量的指示向量。

（5）图论基础与拉普拉斯矩阵示例

示例图

图： $X_1 \rightarrow X_2 \rightarrow X_3 \rightarrow X_4 \rightarrow X_5$

邻接矩阵、度矩阵和拉普拉斯矩阵

邻接矩阵 $W$ ：
$\begin{pmatrix} 0 & 1 & 0 & 0 & 0 \\ 1 & 0 & 1 & 0 & 0 \\ 0 & 1 & 0 & 1 & 0 \\ 0 & 0 & 1 & 0 & 1 \\ 0 & 0 & 0 & 1 & 0 \\ \end{pmatrix}$

度矩阵 $D$ ：
$\begin{pmatrix} 1 & 0 & 0 & 0 & 0 \\ 0 & 1 & 0 & 0 & 0 \\ 0 & 0 & 1 & 0 & 0 \\ 0 & 0 & 0 & 2 & 0 \\ 0 & 0 & 0 & 0 & 1 \\ \end{pmatrix}$

拉普拉斯矩阵 $L = D - W$ ：
$\begin{pmatrix} 1 & -1 & 0 & 0 & 0 \\ -1 & 1 & 0 & 0 & 0 \\ 0 & 0 & 1 & -1 & 0 \\ 0 & 0 & -1 & 2 & -1 \\ 0 & 0 & 0 & -1 & 1 \\ \end{pmatrix}$
示例图
在这里插入图片描述

拉普拉斯矩阵 $L$ 的特征值和特征向量

$L$ 的特征值： $\lambda = 0, 0, 1, 2, 3$

特征向量：
$\mathbf{v}_1 = \begin{pmatrix} 1 \\ 1 \\ 0 \\ 0 \\ 0 \end{pmatrix}, \quad \mathbf{v}_2 = \begin{pmatrix} 0 \\ 0 \\ 1 \\ 1 \\ 1 \end{pmatrix}, \quad \mathbf{v}_3 = \begin{pmatrix} 0 \\ 0 \\ -.71 \\ 0 \\ .71 \end{pmatrix}, \quad \mathbf{v}_4 = \begin{pmatrix} -.71 \\ .71 \\ 0 \\ 0 \\ 0 \end{pmatrix}, \quad \mathbf{v}_5 = \begin{pmatrix} 0 \\ 0 \\ -.41 \\ .82 \\ -.41 \end{pmatrix}$

图的拉普拉斯矩阵 $L$ 的特征向量

图的拉普拉斯矩阵 $L$ 的特征向量：
在这里插入图片描述
前两个特征向量对应图的两个连通部件

其他特征向量可视为连通部件内部的基

$\mathbf{f}^{\text{T}} L \mathbf{f} = \sum_{i,j=1}^N w_{i,j}(f_i - f_j)^2$
表示 $f$ 相对图的平滑程度。

特征向量可形成一组基：前面的成分变化比较平滑，后面的成分变化剧烈。

（6）规范化的拉普拉斯矩阵

1、对称 Laplace 矩阵

对称 Laplace 矩阵： $L_{\text{sym}} = D^{-1/2} L D^{-1/2}$

2、随机游走 Laplace 矩阵

随机游走 Laplace 矩阵： $L_{\text{rm}} = D^{-1} L = I - D^{-1} W$

3、性质

1. 对于任意的向量 $\mathbf{f}$ ， $\mathbf{f}^{\text{T}} L_{\text{sym}} \mathbf{f} = \frac{1}{2} \sum_{i,j=1}^N w_{i,j} \left( \frac{f_i}{\sqrt{d_i}} - \frac{f_j}{\sqrt{d_j}} \right)^2$ 。

2. 如果 $(\lambda, \mathbf{v})$ 是 $L_{\text{rm}}$ 的特征值和特征向量，则 $(\lambda, D^{-1/2} \mathbf{v})$ 是 $L_{\text{sym}}$ 的特征值和特征向量， $\lambda), \mathbf{v})$ 是 $P$ 的特征值和特征向量。

（7）规范化的拉普拉斯矩阵的应用

规范化可消除图中结点度的影响，从而提高模型对不同规模或稀疏度图的适应能力。

对称拉普拉斯矩阵适合于谱分解（如计算特征向量）和对称传播机制（如 GCN），确保信息在双向边上传递时具有一致性。

随机游走拉普拉斯矩阵模拟随机游走的概率转移矩阵，用于表示从一个结点到其邻居结点的概率转移，强调单向信息流，在基于传播机制的模型（如 PageRank 或 GraphSAGE）中有较好的表现。

（8）降维

如果连接图是不连通的，那么下列步骤单独应用于每一个连通分量。我们首先考虑寻找一维嵌入向量的特殊情况，然后泛化到一般的 $D^{'}$ 维的情况。

令 $\mathbf{z} = (z_1, z_2, \ldots, z_N)^{\text{T}}$ 表示 1 维嵌入向量

需要最小化的目标函数如下：
$\frac{1}{2} \sum_{i,j=1}^N (z_i - z_j)^2 w_{ij}$
如果两个数据点 $i$ 和 $j$ 很相似（ $w_{ij}$ 较大），那么 $i$ 和 $j$ 在降维后的空间中应该尽量接近（ $z_i - z_j)^2$ 较小）。对较远的点，不太关注。

（9）构建特征映射

可以将目标函数写成如下形式：
$\frac{1}{2} \sum_{i,j=1}^N (z_i - z_j)^2 w_{ij} = \frac{1}{2} \sum_{i,j=1}^N z_i^2 w_{ij} + \frac{1}{2} \sum_{i,j=1}^N z_j^2 w_{ij} - \sum_{i,j=1}^N z_i z_j w_{ij}$
$\sum_{i=1}^N z_i^2 d_i - \sum_{i,j=1}^N z_i z_j w_{ij}$
$\sum_{i,j=1}^N z_i (d_i - w_{ij}) z_j = \mathbf{z}^{\text{T}} (D - W) \mathbf{z} = \mathbf{z}^{\text{T}} L \mathbf{z}$
其中 $d_{ii} = \sum_j w_{ij}, D = \text{diag}(d_{11} \ldots d_{NN}), L = D - W$ 是拉普拉斯矩阵。

（10）尺度不变性

对目标函数 $\frac{1}{2} \sum_{i,j=1}^N (z_i - z_j)^2 w_{ij}$ ，如果所有结点都映射到了同一个位置，也就是所有结点的嵌入向量 $z_i$ 相同，显然目标函数肯定有最小值 0。但此时嵌入向量不能区分不同的结点，所以这种降维毫无意义。

为了得到唯一解，我们需要对结点嵌入向量 $z_i$ 增加一些限制。

一个最简单的限制：所有结点的嵌入向量能够尽可能地去填充空间，而不是挤在一起。

$\mathbf{z}^{\text{T}} D \mathbf{1} = 0$ ：均值为 0，平移不变，去除平凡解
$\mathbf{z}^{\text{T}} D \mathbf{z} = 1$ ：去掉嵌入向量中任意的尺度因子，使得 $z_i$ 在嵌入空间中分布更加均匀。

（11）优化目标

优化问题可以被写成如下形式：
$\min_{\mathbf{z}} \mathbf{z}^{\text{T}} L \mathbf{z} \quad \text{s.t.} \quad \mathbf{z}^{\text{T}} D \mathbf{z} = 1$

上述带约束的优化问题可用拉格朗日乘子法求解：
$\mathbf{z}^{\text{T}} L \mathbf{z} - \lambda (\mathbf{z}^{\text{T}} D \mathbf{z} - 1)$

拉格朗日函数对 $\mathbf{z}$ 求偏导并等于 0，得到 $\frac{\partial L}{\partial \mathbf{z}} = L \mathbf{z} - \lambda D \mathbf{z} = 0$ 。

因此 $\mathbf{z} = \lambda D \mathbf{z}$ 是一个广义特征值问题，等价于 $D^{-1} L \mathbf{z} = \lambda \mathbf{z}$ ，即 $L_{\text{rm}} \mathbf{z} = \lambda \mathbf{z}$ 。

通过求 $L_{\text{rm}}$ 最小非零特征值所对应的特征向量，即可实现降维。

（12）广义特征值问题

对于形式如下的特征值问题：

求数 $\lambda$ ，使方程
$\mathbf{x} = \lambda B \mathbf{x}$
有非零解 $\mathbf{x}$ ，这里 $A$ 为 $n$ 阶实对称矩阵， $B$ 为 $n$ 阶实对称正定矩阵， $\mathbf{x}$ 为 $n$ 维列向量，则称该问题为矩阵 $A$ 相对于矩阵 $B$ 的广义特征值问题，称满足上式要求的数 $\lambda$ 为矩阵 $A$ 相对于矩阵 $B$ 的特征值，而与 $\lambda$ 相对应的非零解 $\mathbf{x}$ 称为属于 $\lambda$ 的特征向量。

由于 $B$ 正定，故用 $B^{-1}$ 左乘（1）式两端得： $B^{-1} A \mathbf{x} = \lambda \mathbf{x}$

这样可将广义特征值问题转化为矩阵 $B^{-1} A$ 的普通特征值问题。

（13）目标函数优化

最小化：将 $\lambda Dz$ 代回目标函数 $\min_z z^T Lz \quad \text{s.t.} \quad z^T Dz = 1$ ，得到
$z^T Lz = z^T \lambda Dz = \lambda z^T Dz = \lambda$
所以目标函数 $z^T Lz$ 要最小，则需取 $\lambda$ 最小。

注意：最小的特征值为0，其对应的特征向量为全1的向量。因此我们取第二小的特征值对应的特征向量作为 $z$ 。

例：

给定图：
在这里插入图片描述

邻接矩阵
$\begin{pmatrix} 0 & 0.8 & 0.8 & 0 & 0 \\ 0.8 & 0 & 0.8 & 0 & 0 \\ 0.8 & 0.8 & 0 & 0.1 & 0 \\ 0 & 0 & 0.1 & 0 & 0.9 \\ 0 & 0 & 0 & 0.9 & 0 \end{pmatrix}$

度矩阵
$\text{diag}(1.6, 1.6, 1.7, 1, 0.9)$

拉普拉斯矩阵
$\begin{pmatrix} 1.6 & -0.8 & -0.8 \\ -0.8 & 1.6 & -0.8 & -0.1 \\ -0.8 & -0.8 & 1.7 & -0.9 \\ -0.1 & 1 & -0.9 \\ -0.9 & 0.9 \end{pmatrix}$

随机游走拉普拉斯矩阵
$L_{rm} = \begin{pmatrix} 1 & -0.5 & -0.5 \\ -0.5 & 1 & -0.5 \\ -0.4706 & -0.4706 & 1 & -0.0588 & 0 \\ -0.1 & 1 & -0.9 \\ -1 & 1 \end{pmatrix}$

特征值为： $0 < 0.0693 < 1.4773 < 1.5 < 1.9534$
第二小特征值（0.0693）对应的特征向量为
$\approx \begin{pmatrix} -0.3923 \\ -0.3923 \\ -0.3379 \\ 0.9307 \\ 1 \end{pmatrix}, \text{eigenvalue } \lambda_3 \approx 0.0693$

（14）构建 $D^{'} > 1$ 特征映射

我们用 $\times D'$ 矩阵 $Z = (z_1, z_2, ..., z_N)^T$ 表示 $D^{'}$ 维嵌入后的表达
注意 $z_i$ 是 $x_i$ 在嵌入空间的 $D^{'}$ 维表示
需要最小化的目标函数如下
$\frac{1}{2} \sum_{i,j=1}^{N} ||z_i - z_j||^2 w_{ij}$

（15）目标函数

我们定义目标函数如下：
$\frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} ||z_i - z_j||^2 w_{ij} = \frac{1}{2} \sum_{i} \sum_{j} (z_i^T z_i - 2z_i^T z_j + z_j^T z_j) w_{ij}$
这可以进一步简化为：
$\sum_{i=1}^{N} \left( \sum_{j=1}^{N} w_{ij} \right) z_i^T z_i - \sum_{i} \sum_{j} z_i^T z_j w_{ij}$
进一步整理得到：
$\sum_{i=1}^{N} d_i z_i^T z_i - \sum_{i} \sum_{j} z_i^T z_j w_{ij}$
其中 $Z = (z_1, z_2, ..., z_N)^T$ ， $Z^T = (z_1, z_2, ..., z_N)$ ，最终可以表示为：
$\text{tr}(Z^T DZ) - \text{tr}(Z^T WZ)$
最终可以表示为：
$\text{tr}(Z^T LZ)$

最小化的问题可以被写成如下形式：
$\min_Z \text{tr}(Z^T LZ) \quad \text{s.t.} \quad Z^T DZ = I, \quad Z^T DI = 0.$
令矩阵 $\Lambda$ 为拉格朗日乘子 $\lambda_i$ 组成的对角矩阵，构造拉格朗日函数：
$\text{tr}(Z^T LZ) - \text{tr} \left( \Lambda (Z^T DZ - I) \right)$
拉格朗日函数对 $Z$ 求偏导并等于0，得到：
$\frac{\partial L}{\partial Z} = (L + L^T)Z - (DZ\Lambda + D^TZ\Lambda^T) = 2LZ - 2DZ\Lambda = 0$
从而得到：
$DZ\Lambda$

优化问题被写成： $DZ\Lambda$ ，即 $D^{-1}LZ = Z\Lambda$
计算随机游走拉普拉斯矩阵 $D^{-1}L$ 的特征值和特征向量
最小非零特征值所对应的特征向量 $v_k$ ，组成 $D^{'}$ 维的嵌入矩阵
$Z = (v_2, v_3, ..., v_{D'+1})$
$Z$ 的每一行对应一个样本的嵌入向量。
目标函数 $\text{tr}(Z^T LZ) = \text{tr}(Z^T DZ\Lambda) = \text{tr}(Z^T DZ\Lambda) = \text{tr}(\Lambda) = \sum_{i=1}^{N} \lambda_i$
目标函数 $\text{tr}(Z^T LZ)$ 取极小值，对应最小特征值 $\lambda_i$ 之和。

（16）例：拉普拉斯特征映射

下图展示了在瑞士卷上的2000个随机数据点的拉普拉斯特征映射：
在这里插入图片描述

在这里插入图片描述

不同参数 $t$ 和 $N$ 的组合可以得到不同的嵌入效果。当 $N$ 的值很小时，不同的 $t$ 可以相似的表示。当 $N$ 较大时，较小的 $t$ 能得到更好的表示。

权重矩阵定义为：
$W_{ij} = e^{-\frac{||x_i - x_j||^2}{t}}$
引用：
Belkin, M., Niyogi, P. Laplacian eigenmaps and spectral techniques for embedding and clustering. Advances in neural information processing systems. 2002, 1585–1592.

2、t-NSE

（1）t-SNE 概述

t-SNE（t-distributed Stochastic Neighbor Embedding）是一种非线性降维算法，非常适用于将高维数据降维到2维或者3维，进行可视化。

基本思想：在高维空间中相似的数据点，映射到低维空间也相似。
- SNE：将欧氏距离转换为用概率来表示的相似性。
t-SNE：原始空间中的相似度由高斯联合概率表示，嵌入空间的相似度由“学生t分布”表示。

（2）维数灾难

将数据降到低维后无法保持欧氏距离不变，因此用概率表示相似度。

高斯分布中随机采样一些样本点，计算样本点对之间的距离。
- 低维空间中，最短距离很近（接近于0）。
- 高维空间中，最短距离也很远（500维时，接近30）。

在这里插入图片描述

（3）SNE：随机邻居嵌入

给定高维空间中的 $N$ 个数据点： $x_1, ..., x_N$
高维空间中的两个数据点 $x_j$ 和 $x_i$ ，之间的相似度用以数据点 $x_i$ 为中心点的高斯分布表示：

$p_{j|i} = \frac{\exp(-\|x_j - x_i\|^2 / 2\sigma_i^2)}{\sum_{k \neq i} \exp(-\|x_k - x_i\|^2 / 2\sigma_i^2)}$

其中， $\neq i$ ：排除自身。
参数 $\sigma_i$ 为以数据点 $x_i$ 为中心点的高斯分布的标准差。
复杂度： $\log N)$ （只计算最邻居之间的相似度）。

（4）对称SNE

给定高维空间中的 $N$ 个数据点： $x_1, ..., x_N$
高维空间中的两个数据点 $x_j$ 和 $x_i$ ，之间的相似度用以数据点 $x_i$ 为中心点的高斯分布表示：

$p_{j|i} = \frac{\exp(-\|x_j - x_i\|^2 / 2\sigma_i^2)}{\sum_{k \neq i} \exp(-\|x_k - x_i\|^2 / 2\sigma_i^2)}$
数据点 $x_j$ 和 $x_i$ 之间的相似度用联合分布表示：

$p_{i,j} = \frac{p_{j|i} + p_{i|j}}{2N}$

（5）参数 $\sigma_i$ 与困惑度（Perplexity）

在高维空间中，两个数据点 $x_j$ 和 $x_i$ 之间的相似度用以数据点 $x_i$ 为中心点的高斯分布表示：

$p_{j|i} = \frac{\exp(-\|x_j - x_i\|^2 / 2\sigma_i^2)}{\sum_{k \neq i} \exp(-\|x_k - x_i\|^2 / 2\sigma_i^2)}$

由于数据分布稠密不均，对每个数据点确定参数 $\sigma_i$ 很困难，T-SNE实现时采用参数困惑度（perplexity）。

困惑度越大，熵越大，分布的形状相对平坦， $\sigma_i$ 越大。对同一个点， $\sigma_i$ 增大，会增加该点的近邻的数目。因此困惑度大致表示每个点有效的邻居数目。

困惑度定义为：

$\text{perplexity}(p_i) = 2^{H(p)} = 2^{-\sum_j p_{ij} \log_2(p_{ij})}$
在这里插入图片描述

（6）困惑度的应用

困惑度为模型的超参数，大致表示每个点有效的邻居数目。

原始论文建议困惑度设为5-50。
密集区域 $\text{perplexity}(p_i)$ 小， $\sigma_i$ 小。
通常固定困惑度，用二分法或其他方法找到 $\sigma_i$ 。

（7）t-SNE

1、高维到低维映射

将高维映射到低维空间，得到对应点为： $z_1, ..., z_N$ 。
低维空间中的两个对应数据点 $z_j$ 和 $z_i$ 之间的相似度自由度为1的t分布重新定义表示：

$q_{i,j} = \frac{(1 + \|z_j - z_i\|^2)^{-1}}{\sum_{k \neq l} (1 + \|z_k - z_l\|^2)^{-1}}$

其中， $\neq l$ ：排除所有自身项。

2、目标函数

若 $z_j$ 和 $z_i$ 真实反映了高维数据点 $x_j$ 和 $x_i$ 之间的关系，那么概率 $p_{ij}$ 与 $q_{ij}$ 应该完全相等。
用KL散度(Kullback-Leibler Divergence)衡量两个分布之间的距离。
T-SNE的目标函数就是对所有数据点，最小化KL散度：

$\parallel q) = \sum_i \sum_j p_{i,j} \log \frac{p_{i,j}}{q_{i,j}}$

注意：KL散度不是凸函数，具有不同初始值的多次运行将收敛于KL散度函数的局部最小值中，会获得不同的结果。因此，可尝试不同的随机数种子，并选择具有最低KL散度值的结果。

（8）为什么使用t分布？

1、t分布与正态分布的比较

在这里插入图片描述

2、拥挤问题

拥挤问题：不同的点挤在一起，无法区分。

例：一个以数据点 $x_i$ 为中心，半径为 $r$ 的 $m$ 维球，其体积是按 $r^m$ 增长的，假设数据点是在 $m$ 维球中均匀分布的，计算其他数据点与 $x_i$ 的距离。

随着维度的增大，大部分数据点都聚集在球的表面附近，与点 $x_i$ 的距离分布极不均衡。如果直接将这种距离关系保留到低维，会出现拥挤问题。t分布更适合表示长尾现象，允许两点的距离较远（概率比较大）。

在这里插入图片描述

3、更长尾分布的效果

更长尾分布会找到更细节的结构。
在这里插入图片描述

4、概率距离图

对高维空间中距离小的点对，当概率 $q_{i,j} = p_{i,j}$ ，在低维空间中距离更小，相似样本聚得更紧致。对高维空间中距离大的点对，当概率 $q_{i,j} = p_{i,j}$ ，在低维空间中距离更大，不相似样本离得更远。
在这里插入图片描述

（9）目标函数

1、KL散度（Kullback-Leibler Divergence）

KL散度用于衡量两个概率分布之间的差异：

$\parallel q) = \sum_i \sum_j p_{i,j} \log \frac{p_{i,j}}{q_{i,j}}$

KL散度具有不对称性：在低维映射中不同的距离对应的惩罚权重不同。

当高维空间中两个点的距离较近， $p_{i,j}$ 较大；如果在低维空间中对应两个点的距离较远， $q_{i,j}$ 较小，则此时代价很大：例如： $p_{i,j} = 0.8$ ， $q_{i,j} = 0.2$ ， $J = 1.11$ ；
当高维空间中两个点的距离较远， $p_{i,j}$ 较小；如果在低维空间中对应两个点的距离较近， $q_{i,j}$ 较大，则此时代价较小：例如： $p_{i,j} = 0.2$ ， $q_{i,j} = 0.8$ ， $J = 0.277$ 。
更关注局部结构。

（10）目标函数的优化求解

1、目标函数

目标函数为：

$q_{i,j} = \frac{(1 + \|z_j - z_i\|^2)^{-1}}{\sum_{j \neq i} (1 + \|z_{j'} - z_i\|^2)^{-1}} = \frac{(1 + \|z_j - z_i\|^2)^{-1}}{Z}$

其中， $Z$ 为归一化常数。

目标函数为：

$\parallel q) = \sum_i \sum_j p_{i,j} \log \frac{p_{i,j}}{q_{i,j}}$

可以重写为：

$-\sum_i \sum_j p_{i,j} \log q_{i,j}$

$-\sum_i \sum_j p_{i,j} \log (1 + \|z_j - z_i\|^2)^{-1} + p_{i,j} \sum_i \sum_j \log Z$

吸引力：邻居结点相互吸引；排斥力：所有结点越远越好。

2、梯度下降法

目标函数优化求解可采用梯度下降法。

梯度：

$\frac{\partial J}{\partial z_i} = 4 \sum_j (p_{i,j} - q_{i,j}) \left(1 + \|z_i - z_j\|^2\right)^{-1} (z_i - z_j)$

其中， $p_{i,j} - q_{i,j})$ 表示两个点之间的压力或拉力， $z_i - z_j)$ 表示两个点之间的弹簧。

（11）t-SNE超参数 $\sigma_i$ 的影响

1、混淆度（Perplexity）：每个点的局部邻居的数目

混淆度（Perplexity）是每个点的局部邻居的数目，局部结构和全局结构之间折中。

原始输入，每个簇50个点：

在这里插入图片描述

原始输入，每个簇200个点：

在这里插入图片描述

通常很少使用太小的混淆度。混淆度太大也不现实，计算费用更高。

2、高维空间中的高斯分布用基于KNN的均匀分布代替

$\text{Perplexity} / 2$

在这里插入图片描述

（12）t-SNE的缺点

1、时间、空间复杂度为 $O(N^2)$

- 百万量级的数据需要几小时，对于PCA可能只需要几分钟。
- Barnes-Hut近似算法只限于二维或三维嵌入（复杂度为 $\log N)$ ，sklearn中参数method=‘barnes_hut’）。
- 由于目标函数非凸，算法执行的结果是随机的，可多次运行选取最好的结果。
- 全局结构未明确保留，可通过PCA初始化来缓解（sklearn中参数init=‘pca’）。
- 主要用于可视化，很难用于其他目的，如对测试集的降维。

（13）t-SNE中簇之间的距离并不表示相似度

0和1的簇距离比较近，0和7的簇距离较远，但这并不说明0和1的相似度高于0和7的相似度。
在这里插入图片描述
t-SNE可视化结果中不同簇之间的距离没有意义，因为对t分布来说，超出一定距离范围以后，其相似度都很小。

t-SNE更关心的是学习维持局部结构，簇间的距离并不能说明什么。

3、UMAP

（1）均匀流形逼近和投影（Uniform Manifold Approximation and Projection，UMAP）

UMAP是一种用于降维和可视化的算法，与t-SNE类似，但不仅可用于可视化，还可以降维。

https://github.com/lmcinnes/umap
更快：随机梯度下降，可处理更多样本。
对全局结构保持得更好。
可对测试样本生成低维表示。
方便与深度学习相结合，从而使得非参数的UMAP → 参数UMAP（可以对新的数据进行降维）。

（2）UMAP基本思想

1、基本思想

假设数据样本均匀（Uniform）分布在拓扑空间（Manifold）中，可以从这些有限数据样本中近似（Approximation）并映射（Projection）到低维空间。

2、UMAP两个主要步骤：

构造高维空间中的流形结构。
找到该流形的低维表示。

在这里插入图片描述

（3）高维空间的流形结构

1、寻找K近邻

忽略很多高能的数学细节：黎曼几何、单纯形、单纯复形、…

寻找K近邻（如采用Nearest-Neighbor-Descent算法）。
根据K近邻，构建相似图。

假设数据点在流形上均匀分布：单位距离延伸到该点的第K个近邻（K个邻居）。

K越小：更准确地捕捉到黎曼度量的细节结构和变化；
K越大：估计将基于更大的区域。

$\sum_{j=1}^{K} p_{j|i} = \log_2 K$

对稀疏区域收缩，对密集区域拉伸。
在这里插入图片描述

（4）边的权重

1、权重计算

每个点都到其K个近邻有一条边，其权重可视为边“存在”的概率。

假设流形是局部连接的，每个数据点至少和一个最近邻相连，即每个点肯定和其最近邻该位于我们最终可视化的同一个簇中，因此该数据点与其最近邻的权重为1。
令 $x_i$ 到其最近邻的距离为 $\rho_i$ ，
$x_i$ 到对其他近邻点 $x_j$ 的边的概率为：

$p_{j|i} = \exp((-d(x_i, x_j) - \rho_i) / \sigma_i)$
在这里插入图片描述

图片来自：https://towardsdatascience.com/umap-dimensionality-reductionan-incredibly-robust-machine-learning-algorithm-b5acb01de568

（5）局部连接

1、局部连接性

分布散得更宽。

在这里插入图片描述

（6）对称的边的权重

1、边的权重计算

如果 $x_i$ 到点 $x_j$ 的边的概率为 $p_{j|i}$ ， $x_j$ 到对 $x_i$ 的边的概率为 $p_{i|j}$ ，则 $x_i$ 与 $x_j$ 至少存在一条边的概率为1减去不存在边的概率：

$p_{i,j} = 1 - (1 - p_{j|i})(1 - p_{i|j})$

可以进一步简化为：

$p_{i,j} = 1 - (p_{j|i} + p_{i|j}) - p_{j|i}p_{i|j}$

在这里插入图片描述

（7）低维表示

1、参数min_dist

参数min_dist：在低维空间中两个点的最近距离，确定低维空间中点的聚集程度。

低维空间中的两个对应数据点 $z_j$ 和 $z_i$ 之间的相似度：

$q_{i,j} = \left(1 + a\|z_j - z_i\|^{2b}\right)^{-1}$

参数 $a$ ， $b$ 根据参数min_dist值确定，最小二乘：

$min_dist e − ∥ z j − z i ∥ − min_dist ∥ z j − z i ∥ > min_dist \left(1 + a\|z_j - z_i\|^{2b}\right)^{-1} = \begin{cases} 1 & \|z_j - z_i\| \leq \text{min\_dist} \\ e^{-\|z_j - z_i\| - \text{min\_dist}} & \|z_j - z_i\| > \text{min\_dist} \end{cases}$

默认值： $a = 1.577$ ， $b = 0.8951$ 。

（8）目标函数

1、交叉熵

目标函数：交叉熵

$\sum_{e_{i,j} \in \mathcal{E}} p_{i,j} \log \frac{p_{i,j}}{q_{i,j}} + (1 - p_{i,j}) \log \frac{(1 - p_{i,j})}{(1 - q_{i,j})}$

可以重写为：

$-\sum_{e_{i,j} \in \mathcal{E}} p_{i,j} \log q_{i,j} + (1 - p_{i,j}) \log (1 - q_{i,j})$

优化：随机梯度下降
初始化：拉普拉斯特征映射

2、安装UMAP

3、安装命令

使用pip安装UMAP：

pip install -U fiftyone scikit-learn umap-learn

五、总结

1、降维方法总结

降维：将原始高维数据映射到低维空间： $z = f (x)$

基于重构误差最小的降维
- 线性：PCA、NMF，ICA
- 非线性：KPCA、自编码器
基于全局结构保持的降维
- 线性：MDS
- 非线性：Isomap
基于局部结构保持的降维
- 非线性：LLE、Laplacian eigenmap，T-SNE、UMAP

2、sklearn中的降维方法

（1）降维方法列表

2.5. Decomposing signals in components (matrix factorization problems)
- 2.5.1. Principal component analysis (PCA)
- 2.5.2. Kernel Principal Component Analysis (kPCA)
- 2.5.3. Truncated singular value decomposition and latent semantic analysis
- 2.5.4. Dictionary Learning
- 2.5.5. Factor Analysis
- 2.5.6. Independent component analysis (ICA)
- 2.5.7. Non-negative matrix factorization (NMF or NNMF)
- 2.5.8. Latent Dirichlet Allocation (LDA)
2.2. Manifold learning
- 2.2.1. Introduction
- 2.2.2. Isomap
- 2.2.3. Locally Linear Embedding
- 2.2.4. Modified Locally Linear Embedding
- 2.2.5. Hessian Eigenmapping
- 2.2.6. Spectral Embedding
- 2.2.7. Local Tangent Space Alignment
- 2.2.8. Multi-dimensional Scaling (MDS)
- 2.2.9. t-distributed Stochastic Neighbor Embedding (t-SNE)
- 2.2.10. Tips on practical use

（3）MNIST数据集上的降维结果

在这里插入图片描述

六、参考文献

1、参考文献列表

讲义
- 卿来云黄庆明，机器学习从原理到应用，第10章
- 周志华，机器学习，第10章
T-NSE：How to Use t-SNE Effectively
- https://distill.pub/2016/misread-tsne/
UMAP：
- 强烈推荐：How Exactly UMAP Works: （T-NSE和UMAP从头开始实现代码）
  - https://github.com/NikolayOskolkov/HowUMAPWorks
- UMAP官方文档：https://umap-learn.readthedocs.io/en/latest/
- 作者的报告：https://www.youtube.com/watch?v=nq6iPZVUxZU