html5 图片网站flash网页设计教程
news/
2025/10/9 12:16:24/
文章来源:
html5 图片网站,flash网页设计教程,济南哪里做网站好,网站建设要求目录 一、相关和回归的概念#xff08;一#xff09;变量间的关系#xff08;二#xff09;Pearson#xff08;皮尔逊#xff09;相关系数 二、线性回归的概念和方程#xff08;一#xff09;回归分析概述#xff08;二#xff09;线性回归方程 三、线性回归模型的损… 目录 一、相关和回归的概念一变量间的关系二Pearson皮尔逊相关系数 二、线性回归的概念和方程一回归分析概述二线性回归方程 三、线性回归模型的损失函数与参数估计一正规解方程法最小二乘法二梯度下降法 四、线性回归的正则化一正则化线性回归二L2正则化与岭回归三L1正则化与Lasso回归四比较L1与L2正则化 一、相关和回归的概念
一变量间的关系
——函数关系和相关关系
1是一一对应的确定关系
2变量间关系不能用函数关系精确表达 1、函数关系的例子
某种商品的销售额 (y) 与销售量 (x) 之间的关系可表示为 y p x y p x ypx ( p p p为单价)
2、相关关系的例子
商品的消费量 ( y y y) 与居民收入 ( x x x) 之间的关系父亲身高 ( y y y) 与子女身高 ( x x x) 之间的关系
3、相关关系的图示 二Pearson皮尔逊相关系数
随机变量 X \color{red}X X Y \color{red}Y Y D { ( x 1 , y 1 ) , ( x 2 , y 2 ) , ⋯ , ( x m , y m ) } \color{blue}D\{ (x_1, y_1) , (x_2, y_2), \cdots, (x_m, y_m) \} D{(x1,y1),(x2,y2),⋯,(xm,ym)} μ X 1 m ∑ i 1 m x i μ Y 1 m ∑ i 1 m y i \mu_X\frac{1}{m}\sum_{i1}^mx_i\mu_Y\frac{1}{m}\sum_{i1}^my_i μXm1i1∑mxiμYm1i1∑myi σ X 1 m − 1 ∑ i 1 m ( x i − μ X ) 2 σ Y 1 m − 1 ∑ i 1 m ( y i − μ Y ) 2 \sigma_X\sqrt{\frac{1}{m-1}\sum_{i1}^m(x_i-\mu_X)^2}\sigma_Y\sqrt{\frac{1}{m-1}\sum_{i1}^m(y_i-\mu_Y)^2} σXm−11i1∑m(xi−μX)2 σYm−11i1∑m(yi−μY)2 C o v ( X , Y ) 1 m − 1 ∑ i 1 m ( x i − μ X ) ( y i − μ Y ) Cov(X,Y)\frac{1}{m-1}\sum_{i1}^m(x_i-\mu_X)(y_i-\mu_Y) Cov(X,Y)m−11i1∑m(xi−μX)(yi−μY) ρ C o v ( X , Y ) σ X σ Y \boxed{ρ\frac{Cov(X,Y)}{\sigma_X\sigma_Y}} ρσXσYCov(X,Y)
相关系数 r r r 等于 X X X 与 Y Y Y 的协方差除以它们各自标准差的乘积相关系数 r r r 的取值 [ − 1 , 1 ] [-1,1] [−1,1]1表示完全正相关-1表示完全负相关0表示不相关
二、线性回归的概念和方程
一回归分析概述
回归分析指研究一组随机变量 ( X 1 , X 2 , ⋯ , X k ) (X_1, X_2,\cdots, X_k) (X1,X2,⋯,Xk) 和另一组变量 ( Y 1 , Y 2 , ⋯ , Y i ) (Y_1,Y_2,\cdots,Y_i) (Y1,Y2,⋯,Yi) 之间相关关系的统计分析方法。
按自变量一元回归和多元回归按因变量简单回归和多重回归按函数形式线性回归和非线性回归 X i X_i Xi 是自变量 Y i Y_i Yi 是取连续值的因变量。
二线性回归方程
1、一元线性回归
一元线性回归由大体上有线性关系的一个自变量和一个因变量组成模型是 Y a b x ε Ya bx ε Yabxε X X X是自变量 Y Y Y是因变量 ε ε ε是随机误差。
回归分析的任务就是寻找一条拟合直线使得所有样本点到该直线的距离之和最小。 2、多元线性回归
如果回归分析中包括两个或两个以上的自变量且因变量和自变量之间是线性关系则称为多元线性回归分析。 h ( x ) θ 0 θ 1 x 1 θ 2 x 2 ⋯ θ n x n ε i h(x)\theta_0\theta_1x_1\theta_2x_2\cdots\theta_nx_n\varepsilon_i h(x)θ0θ1x1θ2x2⋯θnxnεi 令 x 0 1 x_01 x01则上式可写成 h θ ( x ) θ T X X T θ h_\theta(x)\theta^TXX^T\theta hθ(x)θTXXTθ θ ( θ 0 θ 1 ⋯ θ n ) X ( x 0 x 1 ⋯ x n ) \theta\left(\begin{matrix}\theta_0\\\theta_1\\\cdots\\\theta_n\end{matrix}\right)X\left(\begin{matrix}x_0\\x_1\\\cdots\\x_n\end{matrix}\right) θ θ0θ1⋯θn X x0x1⋯xn θ θ θ称为参数向量也是要求解的一个量注意向量默认是列向量
多元线性回归方程的直观解释 三、线性回归模型的损失函数与参数估计 线性回归方程参数的求解 线性回归分析的目标是求出线性回归方程中参数向量 θ θ θ 的值这有两种方法。 ① 正规解方程法最小二乘法 ② 梯度下降法 一正规解方程法最小二乘法
1、线性回归模型方程
假设房屋价格与以下因子自变量或者特征存在线性关系求解预测房屋 m m m 的价格因变量或者预测量。
面积房间数人口密度房龄价格70250574.2602601066.211047020117.4803401584.3703301074.39036010m?
2、将样本代入线性回归方程 f ( X ) f(X) f(X) 为预测值也写作 y ^ \hat{y} y^ y y y 为实际值。 { f ( X ) θ 0 70 θ 1 2 θ 2 50 θ 3 5 θ 4 f ( X ) θ 0 60 θ 1 2 θ 2 60 θ 3 10 θ 4 f ( X ) θ 0 110 θ 1 4 θ 2 70 θ 3 20 θ 4 f ( X ) θ 0 80 θ 1 3 θ 2 40 θ 3 15 θ 4 f ( X ) θ 0 70 θ 1 3 θ 2 30 θ 3 10 θ 4 \left\{ \begin{array}{l} f(X)\theta_070\theta_12\theta_250\theta_35\theta_4 \\[1ex] f(X)\theta_060\theta_12\theta_260\theta_310\theta_4 \\[1ex] f(X)\theta_0110\theta_14\theta_270\theta_320\theta_4 \\[1ex] f(X)\theta_080\theta_13\theta_240\theta_315\theta_4 \\[1ex] f(X)\theta_070\theta_13\theta_230\theta_310\theta_4 \end{array} \right. ⎩ ⎨ ⎧f(X)θ070θ12θ250θ35θ4f(X)θ060θ12θ260θ310θ4f(X)θ0110θ14θ270θ320θ4f(X)θ080θ13θ240θ315θ4f(X)θ070θ13θ230θ310θ4 X b ⋅ θ [ 1 X 1 ( 1 ) X 2 ( 1 ) ⋯ X n ( 1 ) 1 X 1 ( 2 ) X 2 ( 2 ) ⋯ X n ( 2 ) ⋯ ⋯ 1 X 1 ( m ) X 2 ( m ) ⋯ X n ( m ) ] ⋅ [ θ 0 θ 1 θ 2 ⋯ θ n ] f ( X ) X_b\cdot\theta\left[ \begin{matrix} 1 X_1^{(1)} X_2^{(1)} \cdots X_n^{(1)} \\[1ex] 1 X_1^{(2)} X_2^{(2)} \cdots X_n^{(2)} \\[1ex] \cdots \cdots \\[1ex] 1 X_1^{(m)} X_2^{(m)} \cdots X_n^{(m)} \end{matrix} \right] \cdot\left[ \begin{matrix} \theta_0 \\[1ex] \theta_1 \\[1ex] \theta_2 \\[1ex] \cdots \\[1ex] \theta_n \end{matrix} \right] f(X) Xb⋅θ 11⋯1X1(1)X1(2)X1(m)X2(1)X2(2)X2(m)⋯⋯⋯Xn(1)Xn(2)⋯Xn(m) ⋅ θ0θ1θ2⋯θn f(X) m m m 个样本上标 n n n 个特征下标 X X X ( m , n 1 ) (m,n1) (m,n1) 特征矩阵 θ \theta θ权重向量/系数向量
3、线性回归的损失函数 4、线性回归参数估计
目标找到 θ 0 , θ 1 , θ 2 , ⋯ , θ n \theta_0,\theta_1,\theta_2,\cdots,\theta_n θ0,θ1,θ2,⋯,θn使得平方损失函数 ∑ i 1 m ( y ( i ) − y ^ ( i ) ) 2 \sum_{i1}^m(y^{(i)}-\hat{y}^{(i)})^2 i1∑m(y(i)−y^(i))2 尽可能小。 其中 y ^ ( i ) θ 0 θ 1 X 1 ( i ) θ 2 X 2 ( i ) . . . θ n X n ( i ) \hat{y}^{(i)}\theta_0\theta_1X_1^{(i)}\theta_2X_2^{(i)}...\theta_nX_n^{(i)} y^(i)θ0θ1X1(i)θ2X2(i)...θnXn(i)
5、补充均方误差MSE函数
在线性回归中使用的损失函数是“平方损失函数” (quadratic loss function) L ( Y , f ( X ) ) ( Y − f ( X ) ) 2 L(Y,f(X))(Y-f(X))^2 L(Y,f(X))(Y−f(X))2 即 E ( ω , b ) ∑ i 1 m ( y i − ω x i − b ) 2 E_{(\omega,b)}\sum_{i1}^m(y_i-\omega x_i-b)^2 E(ω,b)i1∑m(yi−ωxi−b)2
但是在计算的时候常常多出一个2并且表示成平均损失的形式 L o s s ( ω , b ) E ( ω , b ) 1 2 m ∑ i 1 m ( f ( x i ) − y i ) 2 1 2 m ∑ i 1 m ( y i − ω x i − b ) 2 \begin{aligned} Loss(\omega,b)E_{(\omega,b)}\frac{1}{2m}\sum_{i1}^m(f(x_i)-y_i)^2\\ \frac{1}{2m}\sum_{i1}^m(y_i-\omega x_i-b)^2 \end{aligned} Loss(ω,b)E(ω,b)2m1i1∑m(f(xi)−yi)22m1i1∑m(yi−ωxi−b)2
平方损失函数下样本数越多误差越大相比于前面的平方损失函数均方误差函数mean-square errorMSE既克服了样本数量的影响同时它也仅仅是在平方损失函数前面增加了一个常量系数 1 2 m \frac{1}{2m} 2m1因此后面通过平方损失函数最小化求解参数的计算过程对它同样适用。
6、损失函数的向量化表示
损失函数 ∑ i 1 m ( y ( i ) − y ^ ( i ) ) 2 \begin{aligned}\sum_{i1}^m(y^{(i)}-\hat{y}^{(i)})^2\end{aligned} i1∑m(y(i)−y^(i))2 y ( y ( 1 ) ⋯ y ( m ) ) y\left(\begin{matrix}y^{(1)}\\\cdots\\y^{(m)}\end{matrix}\right) y y(1)⋯y(m) y ^ X b ⋅ θ ( y ^ ( 1 ) ⋯ y ^ ( m ) ) \hat{y}X_b\cdot\theta\left(\begin{matrix}\hat{y}^{(1)}\\\cdots\\\hat{y}^{(m)}\end{matrix}\right) y^Xb⋅θ y^(1)⋯y^(m)
根据 ∑ p i 2 P T P \begin{aligned}\sum p_i^2P^TP\end{aligned} ∑pi2PTP进行向量化 ( y − X b ⋅ θ ) T ( y − X b ⋅ θ ) (y-X_b\cdot\theta)^T(y-X_b\cdot\theta) (y−Xb⋅θ)T(y−Xb⋅θ) J ( θ ) θ T X b T X b θ − 2 ( X b θ ) T y y T y J(\theta)\boxed{\theta^TX_b^TX_b\theta}-\boxed{2(X_b\theta)^Ty}y^Ty J(θ)θTXbTXbθ−2(Xbθ)TyyTy
对 θ \theta θ 求偏导并令其等于0 2 X b T X b θ − 2 X T y 0 2X_b^TX_b\theta-2X^Ty0 2XbTXbθ−2XTy0 X b T X b θ X b T y X_b^TX_b\thetaX_b^Ty XbTXbθXbTy θ ( X b T X b ) − 1 X b T y \theta(X_b^TX_b)^{-1}X_b^Ty θ(XbTXb)−1XbTy
参数 θ θ θ 的推导过程
当 X b T X b X_b^TX_b XbTXb 可逆时上述解称为线性回归权系数向量的最小二乘解基于均分误差/平方误差最小化。上面两个黑色框的求导结果是根据下面两条函数对向量和矩阵的求导规则
当 A A A 是实对称矩阵时有 ∂ ( a T A x ) ∂ x 2 A x \begin{aligned}\frac{\partial (a^TAx)}{\partial x}2Ax\end{aligned} ∂x∂(aTAx)2Ax ∂ ( a T x ) ∂ x ∂ ( x T a ) ∂ x a \begin{aligned}\frac{\partial (a^Tx)}{\partial x}\frac{\partial (x^Ta)}{\partial x}a\end{aligned} ∂x∂(aTx)∂x∂(xTa)a
7、最小二乘解的缺点
当 X b T X b X_b^TX_b XbTXb 不可逆时无法求解即使可逆逆矩阵求解可能计算很复杂求得的权系数向量 θ \theta θ 可能不稳定即样本数据的微小变化可能导致 θ \theta θ 的巨大变化从而使得回归模型不稳定缺乏泛化能力。
二梯度下降法
1、基本概念
梯度下降Gradient Descent法适合特征个数多、样本数多、其他方法内存无法满足要求的情况下使用。
梯度下降算法是一种求局部最优解的数值计算方法该方法的整体思路是通过迭代来逐渐调整参数使得损失函数达到最小值。
2、基本思想
目标找到 θ 0 , θ 1 , θ 2 , ⋯ , θ n \theta_0,\theta_1,\theta_2,\cdots,\theta_n θ0,θ1,θ2,⋯,θn使得损失函数 ∑ i 1 m ( y ( i ) − y ^ ( i ) ) 2 \begin{aligned}\sum_{i1}^m(y^{(i)}-\hat{y}^{(i)})^2\end{aligned} i1∑m(y(i)−y^(i))2 尽可能小。 比如我们在一座大山上的某处位置由于我们不知道怎么下山于是决定走一步算一步也就是在每走到一个位置的时候求解当前位置的梯度沿着梯度的负方向也就是当前最陡峭的位置向下走一步然后继续求解当前位置梯度向这一步所在位置沿着最陡峭最易下山的位置走一步。 这样一步步的走下去一直走到觉得我们已经到了山脚。当然这样走下去有可能我们不能走到山脚而是到了某一个局部的山峰低处。 3、梯度下降法举例
梯度下降法举例1
损失函数 J ( θ ) θ 2 J(\theta)\theta^2 J(θ)θ2
对 θ θ θ 求导 J ′ ( θ ) 2 θ J(θ)2θ J′(θ)2θ
设 θ 0 1 θ^01 θ01 步长 α 0.4 \alpha0.4 α0.4 θ 0 1 θ^01 θ01 θ 1 θ 0 − α ⋅ J ′ ( θ 0 ) 1 − 0.4 × 2 0.2 θ^1θ^0-α\cdot J(θ^0)1-0.4\times20.2 θ1θ0−α⋅J′(θ0)1−0.4×20.2 θ 2 θ 1 − α ⋅ J ′ ( θ 1 ) 0.2 − 0.4 × 0.4 0.04 θ^2θ^1-α\cdot J(θ^1)0.2-0.4\times0.40.04 θ2θ1−α⋅J′(θ1)0.2−0.4×0.40.04 θ 3 θ 2 − α ⋅ J ′ ( θ 2 ) 0.04 − 0.4 × 0.08 0.008 θ^3θ^2-α\cdot J(θ^2)0.04-0.4\times0.080.008 θ3θ2−α⋅J′(θ2)0.04−0.4×0.080.008 θ 4 θ 3 − α ⋅ J ′ ( θ 3 ) 0.008 − 0.4 × 0.016 0.0016 θ^4θ^3-α\cdot J(θ^3)0.008-0.4\times0.0160.0016 θ4θ3−α⋅J′(θ3)0.008−0.4×0.0160.0016
梯度下降法举例2 J ( θ ) θ 1 2 θ 2 2 J(θ)θ_1^2θ_2^2 J(θ)θ12θ22 θ 0 ( 1 , 3 ) θ^0(1,3) θ0(1,3) α 0.1 \alpha0.1 α0.1 ∇ J ( θ ) ⟨ 2 θ 1 , 2 θ 2 ⟩ \nabla J(θ)\langle2θ_1,2θ_2\rangle ∇J(θ)⟨2θ1,2θ2⟩ θ 0 ( 1 , 3 ) θ^0(1,3) θ0(1,3) θ 1 θ 0 − α ⋅ ∇ J ( θ ) ( 1 , 3 ) − 0.1 ⋅ ( 2 , 6 ) ( 0.8 , 2.4 ) θ^1θ^0-\alpha\cdot\nabla J(θ)(1,3)-0.1\cdot(2,6)(0.8,2.4) θ1θ0−α⋅∇J(θ)(1,3)−0.1⋅(2,6)(0.8,2.4) θ 2 θ 1 − α ⋅ ∇ J ( θ ) ( 0.8 , 2.4 ) − 0.1 ⋅ ( 1.6 , 4.8 ) ( 0.64 , 1.92 ) θ^2θ^1-\alpha\cdot\nabla J(θ)(0.8,2.4)-0.1\cdot(1.6,4.8)(0.64,1.92) θ2θ1−α⋅∇J(θ)(0.8,2.4)−0.1⋅(1.6,4.8)(0.64,1.92) θ 3 ( 0.5124 , 1.536 ) θ^3(0.5124,1.536) θ3(0.5124,1.536) θ 4 ( 0.4096 , 1.228800000000001 ) θ^4(0.4096,1.228800000000001) θ4(0.4096,1.228800000000001) ⋮ \vdots ⋮ θ 10 ( 0.1073741824000003 , 0.32212254720000005 ) θ^{10}(0.1073741824000003,0.32212254720000005) θ10(0.1073741824000003,0.32212254720000005) ⋮ \vdots ⋮ θ 50 ( 1.141798154164342 e − 05 , 3.42539442494306 e − 05 ) θ^{50}(1.141798154164342e^{-05},3.42539442494306e^{-05}) θ50(1.141798154164342e−05,3.42539442494306e−05) ⋮ \vdots ⋮ θ 100 ( 1.6296287810675902 e − 10 , 4.8888886343202771 e − 10 ) θ^{100}(1.6296287810675902e^{-10},4.8888886343202771e^{-10}) θ100(1.6296287810675902e−10,4.8888886343202771e−10)
4、梯度下降法的步骤
1确定当前位置的损失函数的梯度 ∂ ∂ θ i J ( θ 0 , θ 1 , . . . , θ n ) \begin{aligned}\frac{\partial}{\partial\theta_i}J(θ_0,θ_1,...,θ_n)\end{aligned} ∂θi∂J(θ0,θ1,...,θn)
2用步长 α \alpha α 乘以损失函数的梯度得到当前位置下降的距离 α ∂ ∂ θ i J ( θ 0 , θ 1 , . . . , θ n ) \begin{aligned}\alpha\frac{\partial}{\partial\theta_i}J(θ_0,θ_1,...,θ_n)\end{aligned} α∂θi∂J(θ0,θ1,...,θn)
3确定是否所有的 θ i θ_i θi梯度下降的距离都小于 ε ε ε如果小于 ε ε ε 则算法终止当前所有的 θ i θ_i θi 即为最终结果。否则进入步骤4。
4更新所有的 θ i θ_i θi θ i θ_i θi 的更新表达式如下。更新完毕后继续转入步骤1。 θ i θ i − α ∂ ∂ θ i J ( θ 0 , θ 1 , . . . , θ n ) θ_iθ_i-\begin{aligned}\alpha\frac{\partial}{\partial\theta_i}J(θ_0,θ_1,...,θ_n)\end{aligned} θiθi−α∂θi∂J(θ0,θ1,...,θn)
5、步长过大或过小的情况 6、梯度下降法的种类
批量梯度下降法BGD在更新参数时使用所有的样本来进行更新随机梯度下降法SGD仅仅选取一个样本 j j j 来求梯度小批量梯度下降法MBGD对于 m m m 个样本抽取其中 x x x 个子样本来迭代
7、模型评价 R 2 R^2 R2为0时模型最差 R 2 R^2 R2为1时模型最好 R 2 R^2 R2越大模型越好。
训练集上的 R 2 R^2 R2拟合程度好测试集上的 R 2 R^2 R2泛化能力强。
四、线性回归的正则化
一正则化线性回归
为防止过拟合引入了正则化regularization技术就是在原来损失函数的后面加上一个关于模型系数的正则化项 直观理解因为正则化项的存在当新的目标函数 J ( ω ) J(\omega) J(ω) 取得最小值时 L ( ω ) L(\omega) L(ω) 也不至于因为过小而产生过拟合。
正则化项可以理解成对模型参数的一种惩罚在最小化误差的同时使得模型参数变得更小模型参数越小甚至趋向于0将降低模型复杂度防止过拟合。
二L2正则化与岭回归
在原来线性回归的均方误差后面增加 l 2 l_2 l2 范数做正则项就是岭回归ridge regression J ( ω ) 1 2 m ∑ i 1 m ( f ( ω , x i ) − y i ) 2 α 2 ∥ ω ∥ 2 2 J(\omega)\frac{1}{2m}\sum_{i1}^m(f(\omega,x_i)-y_i)^2\frac{\alpha}{2}\lVert\omega\rVert_2^2 J(ω)2m1i1∑m(f(ω,xi)−yi)22α∥ω∥22 ω ∗ a r g m i n J ( ω ) \omega^*argminJ(\omega) ω∗argminJ(ω) 其中 ∥ ω ∥ 2 2 ω 0 2 ω 1 2 . . . ω n 2 \lVert\omega\rVert_2^2\omega_0^2\omega_1^2...\omega_n^2 ∥ω∥22ω02ω12...ωn2。
岭回归求得的权重系数虽然都比较小接近于0但不等于0说明它是比较均衡的对待多个特征。
三L1正则化与Lasso回归
在原来线性回归的均方误差后面增加 l 1 l_1 l1 范数做正则项就是稀疏线性回归Lasso regression J ( ω ) 1 2 m ∑ i 1 m ( f ( ω , x i ) − y i ) 2 α 2 ∥ ω ∥ 1 J(\omega)\frac{1}{2m}\sum_{i1}^m(f(\omega,x_i)-y_i)^2\frac{\alpha}{2}\lVert\omega\rVert_1 J(ω)2m1i1∑m(f(ω,xi)−yi)22α∥ω∥1 ω ∗ a r g m i n J ( ω ) \omega^*argminJ(\omega) ω∗argminJ(ω) 其中 ∥ ω ∥ 1 ∣ ω 0 ∣ ∣ ω 1 ∣ . . . ∣ ω n ∣ \lVert\omega\rVert_1|\omega_0||\omega_1|...|\omega_n| ∥ω∥1∣ω0∣∣ω1∣...∣ωn∣。 L a s s o Lasso Lasso回归求得的权重系数多数都为0体现出稀疏性说明它具有特征选择的能力。
四比较L1与L2正则化 超参数既不能过大也不能太小过大使得正则项的作用加强会削弱拟合效果过小惩罚力度不够防止过拟合效果不明显。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/932525.shtml
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!