设计网站 知乎网页制作图

news/2025/9/26 6:12:32/文章来源:
设计网站 知乎,网页制作图,wordpress小说网站模板,2345网址大全浏览器下载前言#xff1a; 针对一个完整的机器学习框架目前还没有总结出来#xff0c;所以目前只能总结每一个单独的算法。由于现在研究的重点是算法#xff0c;所以对于数据的处理#xff0c;数据的分析和可视化呈现#xff0c;在现阶段并不进行展示#xff08;这样容易陷入纠结…前言 针对一个完整的机器学习框架目前还没有总结出来所以目前只能总结每一个单独的算法。由于现在研究的重点是算法所以对于数据的处理数据的分析和可视化呈现在现阶段并不进行展示这样容易陷入纠结和浪费过多时间。但是当理解算法的基本原理和实现方法之后再回过头来从头开始实现一个完整的机器学习流程。** 1. KNN 原理 KNN是一种即可用于分类又可用于回归的机器学习算法。对于给定测试样本基于距离度量找出训练集中与其最靠近的K个训练样本然后基于这K个“邻居”的信息来进行预测。 在分类任务中可使用投票法选择这K个样本中出现最多的类别标记作为预测结果在回归任务中可使用平均法将这K个样本的实值输出标记的平均值作为预测结果。当然还可以基于距离远近程度进行加权平均等方法。 2. KNN 优缺点 KNN 优点 理论成熟思想简单既可以用来做分类也可以用来做回归 可用于非线性分类 训练时间复杂度比支持向量机之类的算法低仅为O(n) 和朴素贝叶斯之类的算法比对数据没有假设准确度高对异常点不敏感 由于KNN方法主要靠周围有限的邻近的样本而不是靠判别类域的方法来确定所属类别的因此对于类域的交叉或重叠较多的待分样本集来说KNN方法较其他方法更为适合 该算法比较适用于样本容量比较大的类域的自动分类而那些样本容量较小的类域采用这种算法比较容易产生误分 KNN 缺点 计算量大尤其是特征数非常多的时候 样本不平衡的时候对稀有类别的预测准确率低 KD树球树之类的模型建立需要大量的内存 使用懒散学习方法基本上不学习导致预测时速度比起逻辑回归之类的算法慢 相比决策树模型KNN模型可解释性不强 3. KNN 算法三要素距离度量 K 值的选择 下面分析k值过大和过小造成的影响 k值较小就相当于用较小的领域中的训练实例进行预测训练误差近似误差小偏差小泛化误差会增大方差大换句话说K值较小就意味着整体模型变得复杂容易发生过拟合 k值较大就相当于用较大领域中的训练实例进行预测泛化误差小方差小但缺点是近似误差大偏差大换句话说K值较大就意味着整体模型变得简单容易发生欠拟合一个极端是k等于样本数m则完全没有分类此时无论输入实例是什么都只是简单的预测它属于在训练实例中最多的类模型过于简单。 对于k值的选择没有一个固定的经验sklearn默认为5一般根据样本的分布选择一个较小的值可以通过交叉验证选择一个合适的k值。 分类决策规则 KNN 算法一般是用多数表决方法即由输入实例的K个邻近的多数类决定输入实例的类。这也是经验风险最小化的结果。 我们定义训练误差率是K近邻训练样本标记与输入标记不一致的比例误差率表示为 目的是K近邻的标记值尽可能的与输入标记一致 所以最小化 最大化 4 KNN 算法实现 线性扫描 线性扫描也叫“暴力搜索”是计算输入实例与每一个训练实例的距离并选择前k个最近邻的样本来多数表决。这种实现方法简单但是当训练集或特征维度很大时我们经常碰到样本的特征数有上千以上样本量有几十万以上如果我们这要去预测少量的测试集样本算法的时间效率很成问题计算非常耗时故这种暴力实现原理是不可行的 。 kd 树实现 kd 树是一种对k维空间中的实例点进行存储以便对其进行快速检索的树形数据结构构造kd树相当于不断用垂直于坐标轴的超平面将k维空间进行划分构成一系列的k维超矩形区域kd树省去了对大部分数据的搜索大大的较少了计算量。 注意这里的k和KNN中的k的意思不同。KNN中的k代表最近的k个样本kd树中的k代表样本特征的维数。 KD树算法包括三步第一步是建树第二部是搜索最近邻最后一步是预测。 kd 树的建立。kd树实质是二叉树其划分思想与CART树一致切分使样本复杂度降低最多的特征。kd树分别计算k个特征的方差认为特征方差越大则该特征的复杂度亦越大优先对该特征进行切分 切分点是所有实例在该特征的中位数。重复该切分步骤直到切分后无样本则终止切分终止时的样本为叶节点形成kd树。 kd树搜索最近邻。生成kd树以后对于一个目标点以目标点为圆心以目标点到叶子节点样本实例的距离为半径得到一个超球体最近邻的点一定在这个超球体内部。然后返回叶子节点的父节点检查另一个子节点包含的超矩形体是否和超球体相交如果相交就到这个子节点寻找是否有更加近的近邻,有的话就更新最近邻。如果不相交直接返回父节点的父节点在另一个子树继续搜索最近邻。依次下去当回溯到根节点时算法结束此时保存的最近邻节点就是最终的最近邻。 对于kd树来说划分后可以大大减少无效的最近邻搜索很多样本点由于所在的超矩形体和超球体不相交根本不需要计算距离。大大节省了计算时间。 kd树预测。 分类每一次搜寻与输入样本最近的样本节点然后忽略该节点重复同样步骤K次找到与输入样本最近邻的K个样本 投票法确定输出结果。 回归用K个最近样本的输出的平均值作为回归预测值。 球树实现 kd树算法虽然提高了KNN搜索的效率但是在某些时候效率并不高比如当处理不均匀分布的数据集时,不管是近似方形还是矩形甚至正方形都不是最好的使用形状因为他们都有角。为了优化超矩形体导致的搜索效率的问题从而提出了球树实现的方法。其基本思想和kd树类似就是每个分割块都是超球体而不是KD树里面的超矩形体。 5 sklearn实现KNN算法 在scikit-learn 中与近邻法这一大类相关的类库都在sklearn.neighbors包之中。KNN分类树的类是KNeighborsClassifierKNN回归树的类KNeighborsRegressor。除此之外还有KNN的扩展即限定半径最近邻分类树的类RadiusNeighborsClassifier和限定半径最近邻回归树的类RadiusNeighborsRegressor 以及最近质心分类算法NearestCentroid。 在这些算法中KNN分类和回归的类参数完全一样。具体参数如下 sklearn.neighbors.KNeighborsClassifier(n_neighbors5, weights’uniform’,  algorithm’auto’, leaf_size30, p2, metric’minkowski’, metric_paramsNone,  n_jobsNone, **kwargs) n_neighborsKNN中的k值默认为5对于k值的选择前面已经给出解释 weights用于标识每个样本的近邻样本的权重可选择uniform,“distance” 或自定义权重。默认uniform所有最近邻样本权重都一样。如果是distance则权重和距离成反比例如果样本的分布是比较成簇的即各类样本都在相对分开的簇中时我们用默认的uniform就可以了如果样本的分布比较乱规律不好寻找选择distance是一个比较好的选择 algorithm限定半径最近邻法使用的算法可选‘auto’, ‘ball_tree’, ‘kd_tree’, ‘brute’。 ‘brute’对应第一种线性扫描 ‘kd_tree’对应第二种kd树实现 ‘ball_tree’对应第三种的球树实现 ‘auto’则会在上面三种算法中做权衡选择一个拟合最好的最优算法。 leaf_size这个值控制了使用kd树或者球树时 停止建子树的叶子节点数量的阈值。这个值越小则生成的kc树或者球树就越大层数越深建树时间越长反之则生成的kd树或者球树会小层数较浅建树时间较短。默认是30。 这个值一般依赖于样本的数量随着样本数量的增加这个值必须要增加否则不光建树预测的时间长还容易过拟合。可以通过交叉验证来选择一个适中的值。当然如果使用的算法是蛮力实现则这个参数可以忽略 metricp距离度量前面介绍过默认闵可夫斯基距离 “minkowski”p1为曼哈顿距离 p2为欧式距离 metric_params距离度量其他附属参数具体我也不知道一般用得少 n_jobs并行处理任务数主要用于多核CPU时的并行处理加快建立KNN树和预测搜索的速度。n_jobs -1即所有的CPU核都参与计算。 限定半径最近邻法分类和回归的类的主要参数也和KNN基本一样。具体参数如下 sklearn.neighbors.RadiusNeighborsClassifier(radius1.0, weights’uniform’,  algorithm’auto’, leaf_size30, p2, metric’minkowski’, outlier_labelNone,  metric_paramsNone, n_jobsNone, **kwargs) radius限定半径默认为1。半径的选择与样本分布有关可以通过交叉验证来选择一个较小的半径尽量保证每类训练样本其他类别样本的距离较远 outlier_labeint类型主要用于预测时如果目标点半径内没有任何训练集的样本点时应该标记的类别不建议选择默认值 None,因为这样遇到异常点会报错。一般设置为训练集里最多样本的类别。 参考链接https://blog.csdn.net/qq_40195360/article/details/86714337

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/917906.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

大连哪家科技公司做网站好一个人怎么做网站

继win7系统后,微软又推出了win8、win8.1以及win10系统,每个系统在原来的版本上都有了更改和创新。大家都知道,人是一种容易习惯的动物。很多人在使用了win7之后,更换到win8系统会很不习惯、觉得win8无法与win7比拟,这种…

python网站开发流程图文库网站建设

来源:大数据文摘新年伊始,海外媒体VentureBeat电话访谈了包括吴恩达、Yann Lecun在内的四位人工智能领域领军者,询问了他们对于过去一年人工智能领域发展的看法,以及他们认为新一年人工智能和机器学习可能产生的突破。不约而同&am…

怎样做好网站推广flash网站制作下载

一(Date类): 在JDK的java.util包中,提供了Date类用于表示日期和时间,精确到毫秒。随着JDK版本的不断升级和发展,Date类中的大部分构造方法和普通方法都已经不推荐使用。在JDK8中,Date类只有2个构造方法可以使用&#x…

泰州 做网站网站建设类外文翻译

Golang 教程02 - Print,Formatting Strings Go语言提供了丰富的格式化字符串功能,用于将数据格式化为特定格式的字符串。本课程将详细介绍Go语言中Print和Formatting Strings的用法,并提供代码示例供大家参考。 Print 类型及使用 1.Print …

文章网站的一级二级怎么做上海集团平台

详细布置 今天这三道题都非常难,那么这么难的题,为啥一天做三道? 因为 一刷 也不求大家能把这么难的问题解决,所以 大家一刷的时候,就了解一下题目的要求,了解一下解题思路,不求能直接写出代码…

做电影收费网站群晖 做网站服务器

WebUI automation testing framework based on Selenium and unittest. 基于 selenium 和 unittest 的 Web UI自动化测试框架。 特点 提供更加简单API编写自动化测试。提供脚手架,快速生成自动化测试项目。自动生成HTML测试报告生成。自带断言方法,断言…

我的第一个漏洞:通过密码重置实现邮箱枚举

本文详细介绍了作者在漏洞赏金项目中发现的第一个安全漏洞——通过密码重置功能实现邮箱枚举。文章分析了漏洞原理、危害影响及修复方案,为网络安全初学者提供了实用的技术参考和实践经验。我的第一个漏洞:通过密码重…

免费做橙光封面的网站网站由哪些部分组成部分组成

最近的30年来,宏(macros)成为了Microsoft Word的关键卖点。WordBASIC最初是在1989年引入的,它能够让受过极少培训的打字员都能进行计算机编程,从而简化他们的日常工作。\\在那个时代,竞争非常激烈。除了Wor…

购物网站后台模板好的手机端网站模板下载

在搭建hadoop伪分布式环境时,开启hdfs-site.sh后,web端访问不到,但是节点已经正常开启: 在尝试关闭防火墙后也没有效果,后来在/etc/hosts文件中加入本机的ip和主机名映射后,重新初始化namenode,…

关键词爱站网关键词挖掘工具做英文网站要会什么

前言: 当开始使用ElementUI框架来搭建网站或Web应用程序时,了解框架的基本结构和组件的使用是至关重要的。ElementUI是一个基于Vue.js的框架,提供了丰富的UI组件和工具,可以帮助开发人员快速构建现代化的用户界面。 在本文中,我…

手表网站 海马300米潜水表网站建设需要会什么软件有哪些方面

七大排序的个人总结(二) 归并排序(Merge 归并排序(Merge Sort): 归并排序是一个相当“稳定”的算法对于其它排序算法,比如希尔排序,快速排序和堆排序而言,这些算法有所谓的最好与最…

怎么优化一个网站关键词网络推广方案下拉管家xiala11

视频指路 参考博客笔记 参考笔记二 用来分类的模型 说明:1、 逻辑斯蒂回归和线性模型的明显区别是在线性模型的后面,添加了激活函数(非线性变换) ​ 2、分布的差异:KL散度,cross-entropy交叉熵 现在损失函数衡量不是距离而是分布…

如何设计网站制作方案wordpress 做官网

文章目录 每日一句正能量前言35岁被称为运维半衰期,究竟为何?如何顺利过渡半衰期运维的职业发展路径后记 每日一句正能量 凡事顺其自然,遇事处于泰然,得意之时淡然,失意之时坦然,艰辛曲折必然,历…

jsp asp php哪个做网站重庆高端网站建设公司

AOP 概念 AOP:全称是Aspect Oriented Programming即:面向切面编程。 简单的说它就是把我们程序重复的代码抽取出来,在需要执行的时候,使用动态代理的技术,在不修改源码的基础上,对程序进行增强&#xff…

手机建站平台珠海网站建设珠海易推网

1、问题背景:maven使用默认settings.xml配置时,Idea基于pom.xml更新依赖时报错,有些组件下载时连接超时, 通过日志发下,去连接maven.org网站下载依赖,有时候肯定会超时。 2、解决办法:使用国外…

宁波制作企业网站成都机械设计公司

技术选型架构图 是一个用于展示项目中所采用的各种技术和组件之间关系的图表。 它通常包括以下几个部分: 1. 项目名称和描述:简要介绍项目的背景和目标。 2. 技术栈:列出项目中使用的主要技术和工具,如编程语言、框架、数据库…

湖北省建设厅造价官方网站微网站二级页面怎么做

如果你在vue3中使用reactive()方法创建响应式数据,然后又用torefs()方法将响应式数据解构成单一的ref响应式数据。 此时,如果你想用watch监听解构出来单一的响应式数据,watch不起作用。 此时,你需要用watch监听之前的reactive()…

旅游网站建设规划书模块划分硅谷网站开发薪酬

目录 摘要 Abstract 绪论 1.1 研究背景 1.2 研究目的和意义 2.1 ChatGPT技术概述 2.2 ChatGPT技术的优缺点分析 2.2.1 优点 2.2.2 缺点 摘要 本论文围绕ChatGPT展开,介绍了该技术的发展历程、特点及应用,分析了该技术的优缺点,提出了…

站长统计推荐网络推广方式有哪几种

交换机作为STelnet客户端登录其他设备配置示例1、组网需求图1 设备通过STelnet登录其他设备组网图如上图1所示,用户希望在服务器端和客户端进行安全的数据交互,配置两个登录用户为client001和client002,分别使用password认证方式和RSA认证方式…

前端外包网站大学哪个专业可以做网站

1、修改openOCD 的配置文件jlink.cfg 由于手头上的jlink 是swd接口,需要将openOCD的jlink.cfg修改,指定接口类型为swd。这里直接复制一份,然后修改,jlink-swd.cfg内容如下: adapter driver jlink transport select s…