苏州网站seo服务空白网站怎么建立

diannao/2025/10/26 21:32:21/文章来源:

苏州网站seo服务,空白网站怎么建立,一个做网站编程的条件,wordpress 主题模板下载文章目录第1章统计学习方法概论1.1 统计学习1#xff0e;统计学习的特点2#xff0e;统计学习的对象3#xff0e;统计学习的目的4#xff0e;统计学习的方法1.2.1 基本概念1.2.2 问题的形式化 1.3 统计学习三要素1.3.1 模型1.3.2 策略1.3.3 算法 1.4 模型评估与模型选择1… 文章目录第1章统计学习方法概论1.1 统计学习1统计学习的特点2统计学习的对象3统计学习的目的4统计学习的方法1.2.1 基本概念1.2.2 问题的形式化 1.3 统计学习三要素1.3.1 模型1.3.2 策略1.3.3 算法 1.4 模型评估与模型选择1.4.1 训练误差与测试误差1.4.2 过拟合与模型选择 1.5 正则化与交叉验证1.5.1 正则化1.5.2 交叉验证 1.6 泛化能力1.6.1 泛化误差1.6.2 泛化误差上界 1.7 生成模型与判别模型1.8 分类问题1.9 标注问题1.10 回归问题代码练习使用最小二乘法拟和曲线《统计学习方法李航》笔记从原理到实现基于python-- 第1章统计学习方法概论《统计学习方法李航》笔记从原理到实现基于python-- 第 2章感知机我算是有点基础的有过深度学习和机器学的项目经验但也是半路出家无论是学Python还是深度学习都是从问题出发边查边做没有系统的学过相关的知识这样的好处是入门快如果想快速入门大家也可以试试直接上手项目从小项目开始但也存在一个严重的问题就是很多东西一知半解容易走进死胡同出不来感觉有点像陷入局部最优解找不到出路所以打算系统的学习几本口碑比较不错的书籍。书籍选择当然机器学习相关的书籍有很多很多英文版的神书据说读英文版的书会更好奈何英文不太好比较难啃。国内也有很多书周志华老师的“西瓜书”我也有了解过看了前几章个人感觉他肯能对初学者更友好一点讲述的非常清楚有很多描述性的内容。对比下来更喜欢《统计学习方法》毕竟能坚持看完才最重要。笔记内容笔记内容尽量省去了公式推导的部分一方面latex编辑太费时间了另一方面我觉得公式一定要自己推到一边才有用最好是手写。尽量保留所有标题但内容会有删减通过标黑和列表的形式突出重点内容要特意说一下标灰的部分大家最好读一下这部分是我觉得比较繁琐但又不想删掉的部分。代码实现最后是本章内容的实践如果想要对应的.ipynb文件可以留言第1章统计学习方法概论本章主要内容叙述统计学习的定义、研究对象与方法叙述监督学习这是本书的主要内容统计学习方法的三要素模型、策略和算法介绍模型选择包括正则化、交叉验证与学习的泛化能力介绍生成模型与判别模型介绍监督学习方法的应用分类问题、标注问题与回归问题 1.1 统计学习 1统计学习的特点统计学习statistical learning是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科。统计学习也称为统计机器学习statistical machine learning。现在当人们提及机器学习时往往是指统计机器学习。 2统计学习的对象统计学习的对象是数据data。它从数据出发提取数据的特征抽象出数据的模型发现数据中的知识又回到对数据的分析与预测中去。 3统计学习的目的统计学习用于对数据进行预测与分析特别是对未知新数据进行预测与分析。统计学习总的目标就是考虑学习什么样的模型和如何学习模型以使模型能对数据进行准确的预测与分析同时也要考虑尽可能地提高学习效率。 4统计学习的方法统计学习的方法是基于数据构建统计模型从而对数据进行预测与分析。统计学习由监督学习supervised learning、非监督学习unsupervised learning、半监督学习semi-supervised learning和强化学习reinforcement learning等组成。本书主要讨论监督学习从给定的、有限的、用于学习的训练数据training data集合出发假设数据是独立同分布产生的并且假设要学习的模型属于某个函数的集合称为假设空间hypothesis space应用某个评价准则evaluation criterion从假设空间中选取一个最优的模型使它对已知训练数据及未知测试数据test data在给定的评价准则下有最优的预测最优模型的选取由算法实现。这样统计学习方法包括模型的假设空间、模型选择的准则以及模型学习的算法称其为统计学习方法的三要素简称为模型model、策略strategy和算法algorithm。实现统计学习方法的步骤如下 1得到一个有限的训练数据集合2确定包含所有可能的模型的假设空间即学习模型的集合3确定模型选择的准则即学习的策略4实现求解最优模型的算法即学习的算法5通过学习方法选择最优模型6利用学习的最优模型对新数据进行预测或分析。 1.2.1 基本概念 1输入空间、特征空间与输出空间在监督学习中将输入与输出所有可能取值的集合分别称为输入空间input space与输出空间output space。输入与输出空间可以是有限元素的集合也可以是整个欧氏空间。输入空间与输出空间可以是同一个空间也可以是不同的空间但通常输出空间远远小于输入空间。每个具体的输入是一个实例instance通常由特征向量feature vector表示。这时所有特征向量存在的空间称为特征空间feature space。特征空间的每一维对应于一个特征。有时假设输入空间与特征空间为相同的空间对它们不予区分有时假设输入空间与特征空间为不同的空间将实例从输入空间映射到特征空间。模型实际上都是定义在特征空间上的。在监督学习过程中将输入与输出看作是定义在输入特征空间与输出空间上的随机变量的取值。输入、输出变量用大写字母表示习惯上输入变量写作X输出变量写作 Y。输入、输出变量所取的值用小写字母表示输入变量的取值写作x输出变量的取值写作y。变量可以是标量或向量都用相同类型字母表示。输入实例x的特征向量记作: x ( x ( 1 ) ) , ( x ( 2 ) ) , . . . ( x ( i ) ) , . . . . , ( x ( n ) ) ) T x{(x^{(1)}),(x^{(2)}),...(x^{(i)}),....,(x^{(n))})}^T x(x(1)),(x(2)),...(x(i)),....,(x(n)))T x i ( x i ( 1 ) ) , ( x i ( 2 ) ) , . . . ( x i ( i ) ) , . . . . , ( x i ( n ) ) T x_i{(x^{(1)}_i),(x^{(2)}_i),...(x^{(i)}_i),....,(x^{(n)}_i)}^T xi(xi(1)),(xi(2)),...(xi(i)),....,(xi(n))T x ( i ) x^{(i)} x(i)表示 x x x的第 i i i个特征 x i x_i xi表示多个输入变量中的第 i i i个。输入变量X和输出变量Y有不同的类型可以是连续的也可以是离散的。输入变量与输出变量均为连续变量的预测问题称为回归问题输出变量为有限个离散变量的预测问题称为分类问题输入变量与输出变量均为变量序列的预测问题称为标注问题。 2联合概率分布监督学习假设输入与输出的随机变量X和Y遵循联合概率分布P(X,Y)。P(X,Y)表示分布函数或分布密度函数。注意在学习过程中假定这一联合概率分布存在但对学习系统来说联合概率分布的具体定义是未知的。训练数据与测试数据被看作是依联合概率分布P(X,Y)独立同分布产生的。统计学习假设数据存在一定的统计规律X和Y具有联合概率分布的假设就是监督学习关于数据的基本假设。 3假设空间监督学习的目的在于学习一个由输入到输出的映射这一映射由模型来表示。换句话说学习的目的就在于找到最好的这样的模型。模型属于由输入空间到输出空间的映射的集合这个集合就是假设空间hypothesis space。假设空间的确定意味着学习范围的确定。 1.2.2 问题的形式化监督学习中假设训练数据与测试数据是依联合概率分布P(X,Y)独立同分布产生的。在学习过程中学习系统利用给定的训练数据集通过学习或训练得到一个模型表示为条件概率分布 (Y|X)或决策函数Y (X)。条件概率分布 (Y|X)或决策函数Y (X)描述输入与输出随机变量之间的映射关系。对输入$x_i 一个具体的模型一个具体的模型一个具体的模型yf(x) 可以产生一个输出可以产生一个输出可以产生一个输出 f(x_i) 而训练数据集中对应的输出是而训练数据集中对应的输出是而训练数据集中对应的输出是y_i 如果这个模型有很好的预测能力训练样本输出如果这个模型有很好的预测能力训练样本输出如果这个模型有很好的预测能力训练样本输出y_i$ 和模型输出 f ( x i ) f(x_i ) f(xi)之间的差就应该足够小。学习系统通过不断的尝试选取最好的模型以便对训练数据集有足够好的预测同时对未知的测试数据集的预测也有尽可能好的推广。 1.3 统计学习三要素统计学习方法都是由模型、策略和算法构成的即统计学习方法由三要素构成可以简单地表示为方法模型策略算法。 1.3.1 模型在监督学习过程中模型就是所要学习的条件概率分布或决策函数。模型的假设空间hypothesis space包含所有可能的条件、概率分布或决策函数。本书中称由决策函数表示的模型为非概率模型 F f ∣ Y f ( X ) F{f|Yf(X)} Ff∣Yf(X) 由条件概率表示的模型为概率模型。 F P ∣ P ( Y ∣ X ) F{P|P(Y|X)} FP∣P(Y∣X) 1.3.2 策略统计学习的目标在于从假设空间中选取最优模型。首先引入损失函数与风险函数的概念。损失函数度量模型一次预测的好坏风险函数度量平均意义下模型预测的好坏。 1损失函数和风险函数监督学习问题是在假设空间中选取模型f作为决策函数对于给定的输入X由f(X)给出相应的输出Y这个输出的预测值f(X)与真实值Y可能一致也可能不一致用一个损失函数loss function或代价函数cost function来度量预测错误的程度。损失函数值越小模型就越好。举一个例子对数损失函数logarithmic loss function或对数似然损失函数loglikelihood loss function L ( Y , P ( Y ∣ X ) ) − l o g P ( Y ∣ X ) L(Y,P(Y|X))-logP(Y|X) L(Y,P(Y∣X))−logP(Y∣X) 损失函数的期望是理论上模型f(X)关于联合分布P(X,Y)的平均意义下的损失称为风险函数risk function或期望损失expected loss: R e m p ( f ) E p [ L ( Y , f ( X ) ) ] ∫ ( x × y ) L ( y , f ( x ) ) P ( x , y ) d x d y R_{emp}(f)E_p[L(Y,f(X))]\int_{(x\times y)}{L(y,f(x))P(x,y)dxdy} Remp(f)Ep[L(Y,f(X))]∫(x×y)L(y,f(x))P(x,y)dxdy 学习的目标就是选择期望风险最小的模型。由于联合分布P(X,Y)是未知的Rexp(f)不能直接计算。实际上如果知道联合分布P(X,Y)可以从联合分布直接求出条件概率分布 P(Y|X)也就不需要学习了。正因为不知道联合概率分布所以才需要进行学习。这样一来一方面根据期望风险最小学习模型要用到联合分布另一方面联合分布又是未知的所以监督学习就成为一个病态问题ill-formed problem。模型f(X)关于训练数据集的平均损失称为经验风险empirical risk或经验损失empirical loss R e m p ( f ) 1 N ∑ N i 1 L ( y i , f ( x i ) ) R_{emp}(f)\frac{1}{N}\sum_N^{i1}{L(y_i,f(x_i))} Remp(f)N1N∑i1L(yi,f(xi)) 损失函数loss function预测值f(X)与真实值Y的差距非负风险函数risk function损失函数的期望模型f(X)关于联合分布P(X,Y)的平均意义下的损失经验风险empirical risk模型f(X)关于训练数据集的平均损失期望风险Rexp(f)是模型关于联合分布的期望损失经验风险 R e m p ( f ) R_{emp} (f) Remp(f)是模型关于训练样本集的平均损失。根据大数定律当样本容量N趋于无穷时经验风险 R e m p ( f ) R_{emp} (f) Remp(f)趋于期望风险 R e x p ( f ) R_{exp}(f) Rexp(f)。所以一个很自然的想法是用经验风险估计期望风险。但是由于现实中训练样本数目有限甚至很小所以用经验风险估计期望风险常常并不理想要对经验风险进行一定的矫正。这就关系到监督学习的两个基本策略经验风险最小化和结构风险最小化 2经验风险最小化与结构风险最小化经验风险最小化在假设空间、损失函数以及训练数据集确定的情况下经验风险函数式就可以确定。经验风险最小化empirical risk minimizationERM的策略认为经验风险最小的模型是最优的模型。根据这一策略按照经验风险最小化求最优模型就是求解最优化问题 m i n f ∈ F 1 N ∑ N i 1 L ( y i , f ( x i ) ) min_{f\in F}\frac{1}{N}\sum_N^{i1}{L(y_i,f(x_i))} minf∈FN1N∑i1L(yi,f(xi)) 其中 F是假设空间。比如极大似然估计maximum likelihood estimation就是经验风险最小化的一个例子。当模型是条件概率分布损失函数是对数损失函数时经验风险最小化就等价于极大似然估计。结构风险最小化结构风险最小化structural risk minimizationSRM是为了防止过拟合而提出来的策略。结构风险最小化等价于正则化regularization。结构风险在经验风险上加上表示模型复杂度的正则化项regularizer或罚项penalty term。在假设空间、损失函数以及训练数据集确定的情况下结构风险的定义是 R e m p ( f ) 1 N ∑ N i 1 L ( y i , f ( x i ) ) λ J ( f ) R_{emp}(f)\frac{1}{N}\sum_N^{i1}{L(y_i,f(x_i))}λJ(f) Remp(f)N1N∑i1L(yi,f(xi))λJ(f) 其中J(f)为模型的复杂度是定义在假设空间上的泛函。模型f越复杂复杂度J(f)就越大反之模型f越简单复杂度J(f)就越小。也就是说复杂度表示了对复杂模型的惩 \罚。 λ≥0是系数用以权衡经验风险和模型复杂度。结构风险小需要经验风险与模型复杂度同时小。结构风险小的模型往往对训练数据以及未知的测试数据都有较好的预测 1.3.3 算法算法是指学习模型的具体计算方法。统计学习基于训练数据集根据学习策略从假设空间中选择最优模型最后需要考虑用什么样的计算方法求解最优模型。这时统计学习问题归结为最优化问题统计学习的算法成为求解最优化问题的算法。如果最优化问题有显式的解析解这个最优化问题就比较简单。但通常解析解不存在这就需要用数值计算的方法求解。如何保证找到全局最优解并使求解的过程非常高效就成为一个重要问题。 1.4 模型评估与模型选择 1.4.1 训练误差与测试误差统计学习的目的是使学到的模型不仅对已知数据而且对未知数据都能有很好的预测能力。不同的学习方法会给出不同的模型。当损失函数给定时基于损失函数的模型的训练误差training error和模型的测试误差test error就自然成为学习方法评估的标准。注意统计学习方法具体采用的损失函数未必是评估时使用的损失函数。 1.4.2 过拟合与模型选择当假设空间含有不同复杂度例如不同的参数个数的模型时就要面临模型选择model selection的问题。我们希望选择或学习一个合适的模型。如果在假设空间中存在“真”模型那么所选择的模型应该逼近真模型。具体地所选择的模型要与真模型的参数个数相同所选择的模型的参数向量与真模型的参数向量相近。如果一味追求提高对训练数据的预测能力所选模型的复杂度则往往会比真模型更高。这种现象称为过拟合over-fitting。过拟合是指学习时选择的模型所包含的参数过多以致于出现这一模型对已知数据预测得很好但对未知数据预测得很差的现象。下图描述了训练误差和测试误差与模型的复杂度之间的关系。当模型的复杂度增大时训练误差会逐渐减小并趋向于0 而测试误差会先减小达到最小值后又增大。当选择的模型复杂度过大时过拟合现象就会发生。这样在学习时就要防止过拟合进行最优的模型选择即选择复杂度适当的模型以达到使测试误差最小的学习目的。 1.5 正则化与交叉验证 1.5.1 正则化模型选择的典型方法是正则化regularization。正则化是结构风险最小化策略的实现是在经验风险上加一个正则化项regularizer或罚项(penalty term)。正则化项一般是模型复杂度的单调递增函数模型越复杂正则化值就越大。正则化一般具有如下形式 m i n f ∈ F 1 N ∑ N i 1 L ( y i , f ( x i ) ) λ J ( f ) min_{f\in F} \frac{1}{N}\sum_N^{i1}{L(y_i,f(x_i))}λJ(f) minf∈FN1N∑i1L(yi,f(xi))λJ(f) 其中第1项是经验风险第2项是正则化项 λ≥0为调整两者之间关系的系数 1.5.2 交叉验证另一种常用的模型选择方法是交叉验证(cross validation)。如果给定的样本数据充足进行模型选择的一种简单方法是随机地将数据集切分成三部分分别为训练集training set、验证集validation set和测试集test set。训练集用来训练模型验证集用于模型的选择而测试集用于最终对学习方法的评估。 1简单交叉验证简单交叉验证方法是首先随机地将已给数据分为两部分一部分作为训练集另一部分作为测试集例如70%的数据为训练集30%的数据为测试集然后用训练集在各种条件下例如不同的参数个数训练模型从而得到不同的模型在测试集上评价各个模型的测试误差选出测试误差最小的模型。 2S折交叉验证应用最多的是S折交叉验证S-fold cross validation方法如下首先随机地将已给数据切分为S个互不相交的大小相同的子集然后利用S-1个子集的数据训练模型利用余下的子集测试模型将这一过程对可能的S种选择重复进行最后选出S次评测中平均测试误差最小的模型。 3留一交叉验证 S折交叉验证的特殊情形是SN称为留一交叉验证leave-one-out cross validation往往在数据缺乏的情况下使用。这里N是给定数据集的容量。 1.6 泛化能力 1.6.1 泛化误差学习方法的泛化能力generalization ability是指由该方法学习到的模型对未知数据的预测能力统计学习理论试图从理论上对学习方法的泛化能力进行分析。首先给出泛化误差的定义。如果学到的模型是 f ^ \hat{f} f^ 那么用这个模型对未知数据预测的误差即为泛化误差generalization error R e x p ( f ^ E p [ L ( Y , f ^ ( X ) ) ] ∫ x × y L ( y , f ^ ( x ) P ( x , y ) d x d y ) R_{exp}(\hat{f}E_p[L(Y,\hat{f}(X))]\int_{x\times{y}}L(y,\hat{f}(x)P(x,y)dxdy) Rexp(f^Ep[L(Y,f^(X))]∫x×yL(y,f^(x)P(x,y)dxdy) 泛化误差反映了学习方法的泛化能力如果一种方法学习的模型比另一种方法学习的模型具有更小的泛化误差那么这种方法就更有效。事实上泛化误差就是所学习到的模型的期望风险。 1.6.2 泛化误差上界学习方法的泛化能力分析往往是通过研究泛化误差的概率上界进行的简称为泛化误差上界generalization error bound。具体来说就是通过比较两种学习方法的泛化误差上界的大小来比较它们的优劣。泛化误差上界通常具有以下性质它是样本容量的函数当样本容量增加时泛化上界趋于0它是假设空间容量capacity的函数假设空间容量越大模型就越难学泛化误差上界就越大。 1.7 生成模型与判别模型监督学习的任务就是学习一个模型应用这一模型对给定的输入预测相应的输出。这个模型的一般形式为决策函数 Y f ( X ) Yf(X) Yf(X) 或者条件概率分布 Y P ( Y ∣ X ) YP(Y|X) YP(Y∣X) 监督学习方法又可以分为生成方法generative approach和判别方法discriminative approach。所学到的模型分别称为生成模型generative model和判别模型discriminative model。生成方法生成方法由数据学习联合概率分布 P ( X , Y ) P(X,Y) P(X,Y)然后求出条件概率分布 P ( Y ∣ X ) P(Y|X) P(Y∣X)作为预测的模型即生成模型 P ( Y ∣ X ) P ( X , Y ) P ( X ) P(Y|X)\frac{P(X,Y)}{P(X)} P(Y∣X)P(X)P(X,Y) 这样的方法之所以称为生成方法是因为模型表示了给定输入 X X X产生输出 Y Y Y的生成关系。典型的生成模型有朴素贝叶斯法和隐马尔可夫模型。判别方法判别方法由数据直接学习决策函数 f ( X ) f(X) f(X)或者条件概率分布 P ( Y ∣ X ) P(Y|X) P(Y∣X)作为预测的模型即判别模型。判别方法关心的是对给定的输入 X X X应该预测什么样的输出 Y Y Y。典型的判别模型包括k近邻法、感知机、决策树、逻辑斯谛回归模型、最大熵模型、支持向量机、提升方法和条件随机场等。在监督学习中生成方法和判别方法各有优缺点适合于不同条件下的学习问题。生成方法的特点生成方法可以还原出联合概率分布P(X,Y)而判别方法则不能生成方法的学习收敛速度更快即当样本容量增加的时候学到的模型可以更快地收敛于真实模型当存在隐变量时仍可以用生成方法学习此时判别方法就不能用。判别方法的特点判别方法直接学习的是条件概率P(Y|X)或决策函数f(X)直接面对预测往往学习的准确率更高由于直接学习P(Y|X)或f(X)可以对数据进行各种程度上的抽象、定义特征并使用特征因此可以简化学习问题。 1.8 分类问题分类是监督学习的一个核心问题。在监督学习中当输出变量Y取有限个离散值时预测问题便成为分类问题。这时输入变量X可以是离散的也可以是连续的。监督学习从数据中学习一个分类模型或分类决策函数称为分类器classifier。分类器对新的输入进行输出的预测prediction称为分类classification。可能的输出称为类class。分类的类别为多个时称为多类分类问题。对于二类分类问题常用的评价指标是精确率precision与召回率recall。通常以关注的类为正类其他类为负类分类器在测试数据集上的预测或正确或不正确4种情况出现的总数分别记作 TP——将正类预测为正类数FN——将正类预测为负类数FP——将负类预测为正类数TN——将负类预测为负类数。具体定义解决几乎任何机器学习问题 – 学习笔记评估指标_几乎可以解决所有机器学习问题-CSDN博客 1.9 标注问题标注tagging也是一个监督学习问题。可以认为标注问题是分类问题的一个推广标注问题又是更复杂的结构预测structure prediction问题的简单形式。标注问题的输入是一个观测序列输出是一个标记序列或状态序列。标注问题的目标在于学习一个模型使它能够对观测序列给出标记序列作为预测。注意可能的标记个数是有限的但其组合所成的标记序列的个数是依序列长度呈指数级增长的。 1.10 回归问题回归regression是监督学习的另一个重要问题。回归用于预测输入变量自变量和输出变量因变量之间的关系特别是当输入变量的值发生变化时输出变量的值随之发生的变化。回归模型正是表示从输入变量到输出变量之间映射的函数。回归问题的学习等价于函数拟合选择一条函数曲线使其很好地拟合已知数据且很好地预测未知数据代码练习使用最小二乘法拟和曲线举例我们用目标函数2, 加上一个正太分布的噪音干扰用多项式去拟合 import numpy as np import scipy as sp from scipy.optimize import leastsq import matplotlib.pyplot as plt %matplotlib inlineps: numpy.poly1d([1,2,3])生成 1 x 2 2 x 1 3 x 0 1x^22x^13x^0 1x22x13x0 # 目标函数 def real_func(x):return np.sin(2*np.pi*x)# 多项式 def fit_func(p, x):f np.poly1d(p)return f(x)# 残差 def residuals_func(p, x, y):ret fit_func(p, x) - yreturn ret# 十个点 x np.linspace(0, 1, 10) x_points np.linspace(0, 1, 1000)# 加上正态分布噪音的目标函数的值 y_ real_func(x) y [np.random.normal(0, 0.1)y1 for y1 in y_]def fitting(M0):M 为多项式的次数 # 随机初始化多项式参数p_init np.random.rand(M1)# 最小二乘法p_lsq leastsq(residuals_func, p_init, args(x, y))print(Fitting Parameters:, p_lsq[0])# 可视化plt.plot(x_points, real_func(x_points), labelreal)plt.plot(x_points, fit_func(p_lsq[0], x_points), labelfitted curve)plt.plot(x, y, bo, labelnoise)plt.legend()return p_lsq# M0 p_lsq_0 fitting(M0) Fitting Parameters: [-0.03353208]# M1 p_lsq_1 fitting(M1)Fitting Parameters: [-1.5025198 0.71772782]# M3 p_lsq_3 fitting(M3)Fitting Parameters: [ 21.14354912 -31.85091 10.66661731 -0.03324716]# M9 p_lsq_9 fitting(M9)Fitting Parameters: [-7.35300865e03 3.20446626e04 -5.87661832e04 5.89723258e04-3.52349521e04 1.27636926e04 -2.70301291e03 2.80321069e02-3.97563291e00 -2.00783231e-02]!! 当M9时多项式曲线通过了每个数据点但是造成了过拟合正则化结果显示过拟合引入正则化项(regularizer)降低过拟合 Q ( x ) ∑ i 1 n ( h ( x i ) − y i ) 2 λ ∣ ∣ w ∣ ∣ 2 Q(x)\sum ^n_{i1}(h(x_i)-y_i)^2λ||w||^2 Q(x)i1∑n(h(xi)−yi)2λ∣∣w∣∣2 回归问题中损失函数是平方损失正则化可以是参数向量的L2范数,也可以是L1范数。 regularization 0.0001def residuals_func_regularization(p, x, y):ret fit_func(p, x) - yret np.append(ret, np.sqrt(0.5*regularization*np.square(p))) # L2范数作为正则化项return ret# 最小二乘法,加正则化项 p_init np.random.rand(91) p_lsq_regularization leastsq(residuals_func_regularization, p_init, args(x, y))plt.plot(x_points, real_func(x_points), labelreal) plt.plot(x_points, fit_func(p_lsq_9[0], x_points), labelfitted curve) plt.plot(x_points, fit_func(p_lsq_regularization[0], x_points), labelregularization) plt.plot(x, y, bo, labelnoise) plt.legend()

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/diannao/91753.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！