大连理工大学选修课——机器学习笔记（9）：线性判别式与逻辑回归

线性判别式与逻辑回归

概述

判别式方法

产生式模型需要计算输入、输出的联合概率

需要知道样本的概率分布，定义似然密度的隐式参数
也称为基于似然的分类

判别式模型直接构造判别式 $g_i(x|\theta_i)$ ，显式定义判别式参数，不关心数据生成过程

基于判别式的方法只关注类区域之间的边界

在这里插入图片描述

一般认为，估计样本集的类密度比估计类判别式更困难，因为构造判别式通常采用简单的模型

如，线性判别式：

$g_i(x|w_i,w_{i0})=w_i^T+w_{i0}=\sum_{j=1}^dw_{ij}x_j+w_{i0}$

广义上，线性判别式代表了一类机器学习模型

逻辑回归
支持向量机
感知机
神经网络

狭义上，线性判别式仅代表逻辑回归

线性判别式

建立判别式

$g_i(x|w_i,w_{i0})=w_i^Tx+w_{i0}=\sum_{j=1}^dw_{ij}x_j+w_{i0}$

最大熵模型的判别式还是从条件后验概率出发

在这里插入图片描述

建模的条件

数据只有两类
线性可分

判别式模型不考虑数据集的概率分布，直接假定判别式的形式

模型的训练

$g_i(x|w_i,w_{i0})=w_i^Tx+w_{i0}=\sum_{j=1}^dw_{ij}x_j+w_{i0}$

可以采用梯度法，牛顿法等

也可以采用全局优化算法，如遗传算法，模拟退火算法等

线性模型的推广

如果数据不是线性可分的，可以提高模型的复杂度，例如使用二次判别式

升维操作，增加高阶项

在这里插入图片描述

升维操作的一般形式

$g_i(x)=\sum_{j=1}^kw_j\theta_{ij}(x)+w_i0$

其中， $\theta_{ij}$ 是非线性函数，称为基函数

常用的基函数有sin，exp，log等

线性模型的及决策

原则上，每个类别对应一个判别式，二值分类一个判别式可以分类

$g(x)>0\ ?\ C_1:C2$

线性模型的几何意义

任取超平面的两个点 $x_1,x_2,$ 有 $g(x_1)=g(x_2)$

则 $w^T$ 为超平面法线

x的新表达式为

$x=x_p+r\frac{w}{||w||}$

其中， $x_p$ 是 $x$ 到超平面的投影；r是x到超平面的距离 $r=\frac{g(x)}{||w||}$

超平面到原点的距离为 $r_0=\frac{w_o}{||w||}$

处理多类问题

当类别数大于2时，需要k个判别式，假定所有类均线性可分，则可以用线性判别式进行区分

对于属于类别 $C_i$ 的样本 $x$ ，我们期望其判别式函数 $g_i(x)>0$ ，而其它判别式函数 $g_j(x)<0$

但是现实中，多个类别的判别式可能同时给出 $g (x) > 0$

因此，我们取判别式值最大的类即 $预测类别=max\ g_i(x)$

此方法称为线性分类器

如果类线性不可分，则可以采取

升维
逐对分离：假定各类别间逐对线性可分，那么，有 $\frac{K(K-1)}{2}$ 个对，建立这么多个线性判别式

在这里插入图片描述

如果k既不属于i也不属于j，则在训练中舍弃样本 $x^t$ ， $x^t$ 为其它类样本

这种不断排除的理念类似决策树

逻辑回归

讨论二值分类的对数线性模型

我们从后验概率 $P(C_i|x)$ 的计算出发，建立学习模型

定义 $P(C_1|x)=y,P(C_2|x)=1-y$

决策为：

在这里插入图片描述

假设两个类别的数据 $C_1,C_2$ 服从高斯分布，两类别共享协方差矩阵，在此假设下，贝叶斯分类器的判别式 $g (x)$ 是线性的，推导如下：

根据高斯判别分析的结论：

后验概率 $P(C_1|x)$ 可表示为：

$\begin{align} log\frac{P(C_1|x)}{P(C_2|x)}=w^Tx+w_0 \end{align}$

由于 $P(C_2|x)=1-P(C_1|x)$ ，上式等价于：

$\begin{align} log\frac{P(C_1|x)}{1-P(C_1|x)}=w^Tx+w_0=logit(P(C_1|x)) \end{align}$

这正是对数几率的定义

对 $(2)$ 移项，得：

$P(C_1|x)=\frac{1}{1+e^{-(w^T+w_0)}}$

$(3)$ 式为逻辑回归的模型形式，sigmoid。

Logistic函数(也称sigmoid）

$P(C_1|x)=\frac{1}{1+e^{-(w^T+w_0)}}=sigmoid(w^Tx+w_0)$

在这里插入图片描述

sigmoid函数图像，y>0.5,选C_1

Logistic函数的一般形式

在这里插入图片描述

其中， $\mu$ 为位置参数， $\gamma>0$ 为形状参数，关于 $(\mu,\frac{1}{2})$ 对称

逻辑回归

逻辑回归的核心思想，在于不考虑数据分布，假定类似然密度的对数比为线性函数，那么：

$\begin{align} log\ \frac{P(x|C_1)}{P(x|C_2)}=w^Tx+w_0^0 \end{align}$

通过贝叶斯定理，将后验概率转换为似然比和先验比的乘积：

$\begin{align} log\frac{P(C_1|x)}{P(C_2|x)}=log\frac{P(x|C_1)}{P(x|C_2)}+log\frac{P(C_1)}{P(C_2)} \end{align}$

由公式 $(2) (3) (4)$ 得：

$\begin{align}logit(P(C_1|x))=w^Tx+w^0_0+log\frac{P(C_1)}{P(C_2)} \end{align}$

将 $w^0_0+log\frac{P(C_1)}{P(C_2)}$ 合并为新的偏置项，那么先验概率 $P(C_k)$ 被吸收到了偏置项，模型仍保持线性：

$logit(P(C_1|x))=w^Tx+w^0_0$

处理多类问题

我们推广二值分类至 $K > 2$ 的情形，假定：

$\begin{align} log\frac{p(x|C_i)}{p(x|C_k)}=w_i^T+w_{i0}^0 \end{align}$

进而：

$\begin{align} \frac{p(C_i|x)}{p(C_k|x)}=e^{w_i^T+w_{i0}},\quad i=1,2,\cdots,K-1 \end{align}$

$\begin{align} \sum_{i=1}^K\frac{p(C_i|x)}{p(C_K|x)}=\frac{1}{p(C_k|x)}= 1+\sum_{j=1}^{K-1}e^{w_jx+w_{j0}} \end{align}$

于是:

$\begin{align} p(C_k|x)=\frac{1}{1+\sum_{j=1}^{K-1}e^{w_jx+w_{j0}}} \end{align}$

对于其它类别 $i=1,\cdots,K-1,$ 由公式 $(3)$ 得：

$\begin{align} p(C_i|x)=\frac{e^{w_ix+w_{i0}}}{1+\sum_{j=1}^{K-1}e^{w_jx+w_0}} \end{align}$

将公式同一形式，对所有 $i=1,\cdots,K:$

$p(C_i|x)=\frac{e^{w_ix+w_{i0}}}{\sum_{j=1}^Ke^{w_jx+w_{j0}}},其中w_K,w_{K0}=0$

softmax函数

$y_i=\hat p(C_i|x)=\frac{e^{w_ix+w_0}}{\sum e^{w_jx+w_{j0}}}$

如果一个类C的判别式加权函数值明显大于其它类的加权和，那么 $y_i$ 接近于1，将数值限定在了 $[0, 1]$ 之间，可以用概率表示。

逻辑回归与最大熵模型

逻辑回归和最大熵模型可以认为是同一类模型的不同表现形式。

在这里插入图片描述

逻辑回归的训练——梯度下降法

逻辑回归交叉熵损失函数：

$E=-\sum [rlogy+(1-r)log(1-y)]$

对E求偏导,乘以学习率，为更新方向：

$\triangle w_j=-\eta\frac{\partial E}{\partial w_j}=\eta\sum(r-y)x_j$

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/903570.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！