网站流媒体播放如何做数字营销招聘

web/2025/9/28 16:26:09/文章来源:
网站流媒体播放如何做,数字营销招聘,有什么页游传奇平台好,如何做一个app软件需要多少钱今天是机器学习专题的第27文章#xff0c;我们一起来聊聊数据处理领域的降维(dimensionality reduction)算法。我们都知道#xff0c;图片格式当中有一种叫做svg#xff0c;这种格式的图片无论我们将它放大多少倍#xff0c;也不会失真更不会出现边缘模糊的情况。原因也很简…今天是机器学习专题的第27文章我们一起来聊聊数据处理领域的降维(dimensionality reduction)算法。我们都知道图片格式当中有一种叫做svg这种格式的图片无论我们将它放大多少倍也不会失真更不会出现边缘模糊的情况。原因也很简单因为这种图片是矢量图一般的图片存储的是每一个像素点的颜色值而在矢量图当中我们存储的是矢量也就是起点终点以及颜色。由于矢量图只记录起点终点所以无论我们如何放大图片都不会失真而传统的图片就做不到这一点。其实svg就相当于图片的降维我们将上百万的像素点简化成了若干个矢量完成了图片的存储大大减少了数据的规模。机器学习领域中的降维算法其实也是差不多的原理。背景与原理现在降维算法这个词已经越来越少听到了在面试当中也很少被提及这是有时代因素的。因为现在的计算资源以及存储资源越来越廉价了在以前很难承担的计算量现在变得越来越轻松。所以相对而言降维算法没有之前热门了也越来越少在面试当中出现。从现状倒推回从前我们大概可以猜到在若干年以前当我们面临海量无法承担的数据的时候降维算法是多么的重要。因为我们都知道机器学习训练的速度和它使用的数据量有这非常密切的关系使用10维特征和使用100维特征的模型的收敛速度至少是10倍以上的差距。那么自然而然地我们就会想到如果有某种方法可以将100维的数据”压缩“成10维该有多好但问题来了数据不是实体我们真的可以随意压缩吗这其中的原理是什么呢最根本的原理是既然特征可以用来训练模型那么特征的分布和label的分布必然是有一定的内在联系的。也就是说数据并不是随意分散的而是彼此之间有联系的。我们各种各样的压缩算法本质上都是利用了数据之间的关联。举个不是非常恰当但是很直观的例子。假设说我们现在有三个特征分别是一个人的考试成绩、智商以及努力程度。我们会很明显地发现考试成绩和智商以及努力程度这两个特征高度相关。如果我们能够找到它们之间的关联我们完全可以去掉考试成绩这个特征而通过智商、努力程度和它的这种关联来推算出这个值来。当然既然是推算出来的显然会和原本的值有一定的误差这也是不可避免的。从这个例子当中我们可以明确两点首先压缩数据是利用的数据分布的关联或者是特性如果是完全随机的数据是无法降维压缩的。其次降维压缩必然会带来信息损失也就是误差这是不可避免的。降维算法降维压缩的算法有好几种常见的有PCA、ICA和FA下面我们来简单介绍一下。首先是PCAPCA的英文全称是Principal Component Analysis即主成分分析。这种方法的主要原理是对数据进行坐标变换即将数据从原来的坐标系更换到新的坐标系。新的坐标轴是通过最大方差理论推导得到的即新的坐标轴包含了原始数据中大部分的方差这里的方差可以理解成信息。ICA的英文是Independent Component Analysis即独立成分分析在这个算法当中它假设数据是通过N个数据源生成的。假设数据是这N个数据源数据混合观察的结果。这些数据源在统计上是互相独立的如果数据源的数目少于原始特征的数目也可以完成降维。最后是FA即Factor Analysis即因子分析。在因子分析当中我们假设样本当中存在一些隐变量我们假设样本是这些隐变量和一些噪音的线性组合。那么只要这些隐变量的数量少于原始特征的数量我们就可以用这些隐变量来作为新的数据从而实现降维。这三种降维算法虽然各不相同但是核心的思路都是一致的。都是假设数据的分布满足某一种特性通过利用这一种特性来对数据进行压缩。这其中使用范围最广的是PCA所以我们着重来了解一下PCA的原理以及实现。理论推导关于PCA算法有两种通俗的解释一种是最大方差理论另外一种是最小化降维损失这两个思路推导出的结果是一样的。相比之下最大方差理论更加容易理解一些所以我们就选择最大方差理论来做个简单的解释。在信号系统当中我们普遍认为信号具有较大的方差而噪音拥有较小的方差。信噪比就是信号与噪声的方差比这个比值越大越好越大说明噪音越小信号的质量越高。比如下图当中的这个数据分布我们可以在原始数据当中找到两个正交轴根据方差最大理论我们会把方差大的那个轴看成是信号方差小的看成是噪音。根据这个思路最好的k维特征是将n维的样本转换成k维坐标之后拥有最大方差的k个。协方差到这里我们虽然知道了要获取方差最大的方向作为新的坐标轴但是如果我们直接去计算的话是会有问题的。最大的问题在于我们没办法选出K个来如果只是选择类似的K个方向这K个轴的信息都差不多会丢失大量的信息。所以我们不仅要选择K个轴而且要保证这K个轴尽可能线性无关。要做到线性无关也就是说这K个轴应该是彼此正交的。如果两个轴正交可以进一步得到这两个轴的协方差为零。为了简化运算我们可以先让原始数据全部减去各自特征的均值。在去除均值之后两个特征的协方差可以表示为两个特征正交等价于它们的协方差为0我们假设去除了均值之后的矩阵为X我们来写出它的协方差矩阵。协方差矩阵对于去除了均值的矩阵X而言有一个性质是它的协方差矩阵X_cov1/m X X^T。我们可以来简单证明一下假设矩阵当中只有两个特征a和b那么我们将它按行写成矩阵我们假设X的协方差矩阵为C那么C是一个对称矩阵它的对角线上的元素表示各个特征的方差其他的元素则表示特征之间的协方差。我们的目标是希望能够得到一个类似形式的对角矩阵也就是说除了对角线之外的其余元素全为0这样这些特征之间就是正交矩阵我们根据对角线上的值挑选出方差最大的K个特征即可。我们的目的和方向已经很明确了距离终点只有一步之遥但是这一步怎么迈过去呢对角化这里我们采用逆向思维来思考假设我们已经找到了矩阵P通过P对X进行线性变换的结果是Y那么YPX我们假设Y的协方差矩阵为D那么根据刚才我们推导的结论可以得到我们希望D是一个对角矩阵所以我们要寻找的就是PP找到之后一切都迎刃而解。因为D是一个对角矩阵我们将它对角的元素从大到小排列之后对应P的行组成的矩阵就是我们寻找的基。我们用P的前K行组成的新矩阵对原始数据X进行线性变换就将它从n维降低到了K维。所以问题就只剩下了一个这个P矩阵要怎么求呢我们干想是很困难的其实数据家们已经给了我们答案就是C矩阵的特征向量。由于C是对称矩阵根据线性代数的原理它有如下两条性质对称矩阵不同的特征值对应的特征向量必然正交特征值是实数K重特征值对应的线性无关的特征向量刚好有K个根据这两条性质我们可以得到对于n*n的矩阵C来说我们可以找到n个特征向量 e_1, e_2, ... , e_n。我们将它们按列组成矩阵我们通过E可以将C对角化我们对Lambda中的特征值从大到小排列选出前K个特征值对应的特征向量组成矩阵即得到了最终的结果P。最后我们整理一下上述的整个过程。每一维特征减去平均值计算协方差矩阵求解协方差矩阵的特征值和特征向量对特征值降序排序选择其中最大的K个然后将对应的K个特征向量作为行向量组成特征向量P转换之后的结果X_t PX我们把这个逻辑整理一下写成代码import numpy as npdef pca(df, k): mean np.mean(df, axis0) new_df df - mean # 计算协方差矩阵也可以用公式自己算 cov np.cov(new_df, rowvar0) # 求解矩阵特征值和特征向量 eigVals, eigVects np.linalg.eig(np.mat(cov)) # 对特征值排序选最大的K个由于是从小到大排所以我们取反 eigValIndice np.argsort(-eigVals) # 构建变换矩阵 n_eigValIndice eigValIndice[:k] n_eigVect eigVects[:, n_eigValIndice] data_ret new_df.dot(n_eigVect) return data_ret实战验证为了验证程序效果我们找了一份经典的机器学习数据http://archive.ics.uci.edu/ml/datasets/SECOM。我们把它下载下来之后用pandas读入进来可以看到它的特征有590维展开看的话会发现特征当中有许多空值我们对它进行一个简单地预处理将空值替换成特征均值并且再读入label的值为了验证PCA降维的效果我们用同样一份数据用同样的模型比较一下做PCA之前和之后模型的效果。这里我选择的是随机森林其实不管用什么模型都大同小异。我们将数据拆分成训练数据与测试数据并且调用skelarn库当中的随机森林完成训练和预测最后计算模型在测试集当中的表现。说起来挺复杂但是由于sklearn替我们完成了大量的工作所以用到的代码并不多我们可以看到在PCA之前随机森林在测试集上的表现是92.3%的准确率。接下来我们用同样的数据和模型来验证PCA之后对于模型性能的影响。为了保证数据集的完全一致我们把测试集的随机种子也设置成一样。可以看到模型在测试集上的准确率完全一样说明PCA并没有过多降低模型的性能和我们的预期一致。总结在今天的文章当中我们详细介绍并推导了PCA背后的原理并采取实际数据集验证了PCA算法的效果。从最后的结果上来看虽然我们将590维的特征缩减到了10维但是模型的效果却几乎没有多大影响可见PCA的威力。当然这背后的因素很多除了PCA本身的原理之外和数据的分布以及训练测试样本的数量也有关系。在极端场景下可能特征的数量非常多含有大量的噪音如果我们不做降维直接训练的话很有可能导致模型很难收敛。在这种情况下使用降维算法是必要的而且会带来正向的提升。如果特征数量不多模型能够收敛使用降维算法可能没什么助益而且会稍稍降低模型的效果。但在一般的情况下数据集特征的分布也符合二八定律即20%的特征带来80%以上的贡献大部分特征效果不明显或者噪音很多。在这种情况下使用PCA进行降维几乎是一定起到正向作用的。当然在实际的应用场景当中降维算法用的越来越少除了计算能力提升之外另外一个很重要的原因是深度学习的兴起。深度神经网络本身就带有特征筛选的效果它自己会选择合适的特征组合达到最好的效果所以很多特征处理和降维等操作显得不是特别有必要了。虽然如此但是算法本身的思想还是很有借鉴作用PCA算法在Kaggle比赛当中使用频率也很高对它进行详细地了解和学习还是很有必要的。今天的文章就到这里如果喜欢本文可以的话请点个赞和关注吧给我一点鼓励也方便获取更多文章。本文始发于公众号TechFlow

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/83423.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

专业做网站方案ppt昭通高速装配式建筑公司网站

首先要感谢大康老师对我在Linux操作系统上的教导。今天来讲一下用途广泛的Linux的基础入门教程仅仅是做入门使用,如果想更加深入的学习那就需要自己做探索了。本次例子使用的是kali linux(ARM架构)是基于Debian的Linux发行版本,可能会与其他版本操作有所…

网站推广的方法网页设计师需要掌握的领域

驼峰式命名法:当变量名或函数名是由一个或多个单词连结在一起,而构成的唯一识别字时,第一个单词以小写字母开始;从第二个单词开始以后的每个单词的首字母都采用大写字母,例如:myFirstName、myLastName&…

网上作业网站怎么做的优秀平面设计网站

背景在复杂分布式系统中,往往需要对大量的数据和消息进行唯一标识。如在支付流水号、订单号等,随者业务数据日渐增长,对数据分库分表后需要有一个唯一ID来标识一条数据或消息,数据库的自增ID显然不能满足需求,此时一个…

个人网站设计分类个人电脑做服务器映射网站

官方文档 nginx documentation 说明 nginx是我们本次教程使用的http服务器。它能承受很高的并发,并且安装简单,占用内存少。 在服务器篇我们提到了nginx的安装,在发布篇我们简述了该怎么放置我们创建的博客html文档。 在本篇&#xff0c…

网站建设方案计划书人员规划软件商店安装免费下载

0x01 产品简介 红帆iOffice.net从最早满足医院行政办公需求(传统OA),到目前融合了卫生主管部门的管理规范和众多行业特色应用,是目前唯一定位于解决医院综合业务管理的软件,是最符合医院行业特点的医院综合业务管理平…

吴江企业网站制作微商城网站建设策划方案

戳蓝字“CSDN云计算”关注我们哦!随着社会的发展,技术的进步,以前的大型机架构由于高成本、难维护等原因渐渐地变得不再主流,替代它的就是当下最火的分布式架构。要说分布式架构有多重要,可以说如果你不了解“分布式”…

宁国新站seo免费手机网站自助建站

无线路由器的品类在不断增加,人们的生活也逐渐无法离开WIFI,各类无线路由器的设置方法大同小异,为了方便不为人知的小白更方便的设置无线路由器,这里详细介绍一下斐讯(phicomm)无线路由器怎么设置。配置前准备:A、请保…

代做外国空间网站搜索引擎排名优化方案

Axious的请求与响应 1.什么是Axious Axious是一个开源的可以用在浏览器和Node.js的异步通信框架,它的主要作用就是实现AJAX异步通信,其功能特点如下: 从浏览器中创建XMLHttpRequests ~从node.js创建Http请求 支持PromiseAPI 拦截请求和…

wnmp搭建后怎么做网站厦门手机网站建设公司

文章目录 1. 介绍2. 使用2-1. 单击双击和长按2-2. 拖动和滑动2-3. 缩放 3. 注意点 1. 介绍 在 flutter 中,GestureDetector 是手势识别的组件,可以识别点击、双击、长按、拖动、缩放等手势事件,并且可以与子组件进行交互,构造函数…

免费的培训网站建设中国建设网官方网站洞庭湖治理

系列综述: 💞目的:本系列是个人整理为了秋招面试的,整理期间苛求每个知识点,平衡理解简易度与深入程度。 🥰来源:材料主要源于LeetCodeHot100进行的,每个知识点的修正和深入主要参考…

域名暂无法进行网站备案做交易网站什么开发语言

装饰模式使用对象组合的方式动态改变或增加对象行为。 Go语言借助于匿名组合和非入侵式接口可以很方便实现装饰模式。 使用匿名组合,在装饰器中不必显式定义转调原对象方法。 decorator.go package decoratortype Component interface {Calc() int }type Concre…

一个公司网站备案福田欧辉氢燃料电池客车

前言JSFinder是一款优秀的github开源工具,这款工具功能就是查找隐藏在js文件中的api接口和敏感目录,以及一些子域名。 github链接: Code1https://github.com/Threezh1/JSFinder

电子商务网站建设模板宿迁房产网宿迁市区房屋出售

面试题-TS(一):TypeScript是什么?它与JavaScript有什么区别? TypeScript是一种编程语言,它是JavaScript的超集。它通过添加静态类型、类、接口和模块等功能来扩展JavaScript。 JavaScript是一种广泛应用于Web开发的脚本语言,它的灵活性和…

加拿大网站后缀wordpress从入门

请求上下文和应用上下文详解 一、背景二、什么是上下文2.1、请求上下文2.2、应用上下文2.3、两种上下文的底层逻辑 三、写在最后 一、背景 在如何实现异步发送邮件的时候,遇到过这样一个报错 RuntimeError: Working outside of request context.This typically me…

win7下用iis搭建网站专业网站开发联系方式

外贸行业在Zoho的客户群体中占比较高。因为我们的国际化背景、丰富的产品组合、多语言多币种跨时区、高性价比等特点,成为外贸企业开展业务的选择。在和外贸客户沟通中,发现无论是外贸大拿还是新手小白,大家遇到一个共同的问题——发出去的开…

网站备案 更改ip小程序与手机网站区别

联想ThinkPad笔记本广告向苹果MacBook Air开战 [url]http://www.sina.com.cn[/url] 2008年03月24日 07:21 新浪科技联想ThinkPad X300笔记本广告,暗讽苹果MacBook AirMacbook Air最厚的地方仅有1.94cm,边缘仅0.4cm视频:ThinkPad X300对比Mac…

江西网站搜索引擎优化加速器网页版

气泡堆叠图是堆叠图与气泡图的组合—在堆叠图每根柱子上方添加大小不同的气泡,用于表示另外一个数据变量(如每根柱子各组分的平均值)的大小。 本文利用自己制作的BarBubble工具,进行气泡堆叠图的绘制,先来看一下成品效…

南京建设工程管理局网站公司网站建设模块简介

功能模块: 待办消息,招标公告,中标公告,信息发布 描述: 全过程数字化采购管理,打造从供应商管理到采购招投标、采购合同、采购执行的全过程数字化管理。通供应商门户具备内外协同的能力,为外部供…

重庆网站建设运营深圳金科威公司官网

介绍 使用sql语句修改字段名。 命令 alter table 表名 change 旧字段名 新字段名 新数据类型;例子 将a表id字段名改为id1 alter table a change id id1 int(12) NOT NULL;

莱芜网站优化排名公司无锡网站建设有限公司

两者的区别需要通过提交表单后才看得出来,主要是在数据发送方式和接收方式上 1.在客户端,Get方式在通过URL提交数据,就是把表单内的元素,转化成url参数提交,比如你有一个页面index.html,这个页面有一个文本…