python 40位的数减个位数_Python数据分析入门教程(五):数据运算

3e40c5b0b12f2bdb347f41526f853fcf.png
作者 | CDA数据分析师

进行到这一步就可以算是开始正式的烹饪了,在这部分之前的数据操作部分我们列举了一些不同维度的分析指标,这一章我们主要看看这些指标都是怎么计算出来的。

一、算术运算

算术运算就是基本的加减乘除,在Excel或者Python中数值类型的任意两列可以直接进行加、减、乘、除运算,Excel中的算术运算比较简单,这里就不展开了,下面主要介绍Python中的算术运算。

两列相加的具体实现如下图所示:

586a2017ed87512f2e422b85db4c3c38.png

两列相减的具体实现如下图所示:

0a072cefae44c2a6ba00d3e5c7b2e270.png

两列相乘的具体实现如下图所示:

b413ba44f0a633fdd1076f7ff5c61c18.png

两列相除的具体实现如下图所示:

4f5e3ca70999e4ac1c5ea2dd69e26bc1.png

任意一列加/减一个常数值,这一列中的所有值都加/减这个常数值,具体实现如下图所示:

d2c9a79292d19f7106dcce0f0e033978.png

任意一列乘/除一个常数值,这一列中的所有值都乘/除这个常数值,具体实现如下图所示:

356bbcac85663a9422672bc0358824f0.png

二、比较运算

比较运算和Python基础知识中讲到的比较运算一致,也是常规的大于、等于、小于之类的,只不过这里的比较是在列与列之间进行的。

在Excel中列与列之间的比较运算和Python中的方法一致,例子如下图所示。

37d1683b082ed32f66f3d704d90a5eff.png

下面是一些Python中列与列之间比较的例子。

41ccafb7b734a33b3a92926312ba5c87.png

93535dd71a0a3608919f86c89ef13fa4.png

三、汇总运算

上面讲到的算术运算和比较运算都是在列与列之间进行的,运算结果是有多少行的值就会返回多少个结果,而汇总运算是将数据进行汇总返回一个汇总以后的结果值。

1、count非空值计数

非空值计数就是计算某一个区域中非空(单元格)数值的个数。

在Excel中counta()函数用于计算某个区域中非空单元格的个数。与counta()函数类似的一个函数是count()函数,它用于计算某个区域中含有数字的单元格的个数。

在 Python 中,直接在整个数据表上调用 count()函数,返回的结果为该数据表中每列的非空值的个数,具体实现如下所示。

2c138e21ef90580e19580cdd620aa7c9.png

count()函数默认是求取每一列的非空数值的个数,可以通过修改axis参数让其等于1,来求取每一行的非空数值的个数。

e0a339a0224e3fc235d19d6f208c5b71.png

也可以把某一列或者某一行索引出来,单独查看这一列或这一行的非空值个数。

ce93a9b297b39e486e95ab3c32d924b4.png

2、sum求和

求和就是对某一区域中的所有数值进行加和操作。

在 Excel 中要求取某一区域的和,直接在 sum()函数后面的括号中指明要求和的区域,即要对哪些值进行求和操作即可。例子如下所示。

fd08a4fb5e1b575ed3b22c51f16bde8d.png

在Python中,直接在整个数据表上调用sum()函数,返回的是该数据表每一列的求和结果,例子如下所示。

e4146499e7993001a25a16fba113bc21.png

sum()函数默认对每一列进行求和,可通过修改axis参数,让其等于1,来对每一行的数值进行求和操作。

3c3ce9dfd757091b7c8ff978e8426ca5.png

也可以把某一列或者某一行索引出来,单独对这一列或这一行数据进行求和操作。

945e5ecef22e74f890ca41525ce5d91a.png

3、 mean求均值

求均值是针对某一区域中的所有值进行求算术平均值运算。均值是用来衡量数据一般情况的指标,容易受到极大值、极小值的影响。

在Excel中对某个区域内的值进行求平均值运算,用的是average()函数,只要在average()函数中指明要求均值运算的区域即可,比如:

c87a96378c2d1f816698039a3019e55d.png

在Python中的求均值利用的是mean()函数,如果对整个表直接调用mean()函数,返回的是该表中每一列的均值。

9935743b618f92c7e408fe825b054f4b.png

mean()函数默认是对数据表中的每一列进行求均值运算,可通过修改 axis 参数,让其等于1,来对每一行进行求均值运算。

fbb7c86b5579333e0f03528a89b2f5c1.png

也可以把某一列或者某一行通过索引的方式取出来,然后在这一行或这一列上调用mean()函数,单独求取这一行或这一列的均值。

b4a3f7ede2283769e36e9d6af4bc5946.png

4、 max求最大值

求最大值就是比较一组数据中所有数值的大小,然后返回最大的一个值。

在Excel和Python中,求最大值使用的都是max()函数,在Excel中同样只需要在max()函数中指明要求最大值的区域即可;在Python中,和其他函数一样,如果对整个表直接调用max()函数,则返回该数据表中每一列的最大值。max()函数也可以对每一行求最大值,还可以单独对某一行或某一列求最大值。

95dca1bbc00b54e901f28b0710daae7b.png

3b579f0e39af8930f24457f07cf66635.png

5、min求最小值

求最小值与求最大值是相对应的,通过比较一组数据中所有数值的大小,然后返回最小的那个值。

在Excel和Python中都使用min()函数来求最小值,它的使用方法与求最大值的类似,这里不再赘述。示例代码如下。

e0e0d249ec5ddc6082517bcb47a476af.png

6、 median求中位数

中位数就是将一组含有n个数据的序列X按从小到大排列,位于中间位置的那个数。

中位数是以中间位置的数来反映数据的一般情况,不容易受到极大值、极小值的影响,因而在反映数据分布情况上要比平均值更有代表性。

现有序列为X:{X1、X2、X3、......、Xn}。

如果n为奇数,则中位数:

3c9746bce8cb0a539bdd561d97ebb236.png

如果n为偶数,则中位数:

1c7c049264cdad968d4e774748481b94.png

例如,1、3、5、7、9的中位数为5,而1、3、5、7的中位数为(3+5)/2=4。

在Excel和Python中求一组数据的中位数,都是使用median()函数来实现的。

下面为在Excel中求中位数的示例:

d99bf55a0e6fbbe17fb2e41b133ef313.png

在Python中,median()函数的使用原则和其他函数的一致。

7900ba5428ea0b15b241ec7afdace1a6.png

7、mode求众数

顾名思义,众数就是一组数据中出现次数最多的数,求众数就是返回这组数据中出现次数最多的那个数。

在Excel和Python中求众数都使用mode()函数,使用原则与其他函数完全一致。

在Excel中求众数的示例如下:

8896e73ed4b0fcc9af78625fd9c72cde.png

在Python中求众数的示例如下:

d316f2687c566587dcc705b62fa73238.png

9df6d86ea4a92538d11941203b95c294.png

8、var求方差

方差是用来衡量一组数据的离散程度(即数据波动幅度)的。

在Excel和Python中求一组数据中的方差都使用var()函数。

下面为在Excel中求方差的示例:

d2cabdb59f202cc4dea21fc861790818.png

在Python中,var()函数的使用原则和其他函数的一致。

ee26ad2a2a35007b8c4c52d311601d1a.png

9、std求标准差

标准差是方差的平方根,二者都是用来表示数据的离散程度的。

在Excel中计算标准差使用的是stdevp()函数,示例如下:

7653d8cd35bed5450f39016ce7612579.png

在Python中计算标准差使用的是std()函数,std()函数的使用原则与其他函数的一致,示例如下:

b4c743e937fbe487f8459a7ee1e6d8a1.png

10、quantile求分位数

分位数是比中位数更加详细的基于位置的指标,分位数主要有四分之一分位数、四分之二分位数、四分之三分位数,而四分之二分位数就是中位数。

在Excel中求分位数用的是percentile()函数,示例如下:

272053bac19f973b318ae71996685b20.png

在Python中求分位数用的是quantile()函数,要在quantile后的括号中指明要求取的分位数值,quantile()函数与其他函数的使用规则相同。

5b43fdcb9906687a909ae85f04fdaba3.png

0bf0720c7ceff8f462a880ee7e5cb95b.png

四、相关性运算

相关性常用来衡量两个事物之间的相关程度,比如我们前面举的例子:啤酒与尿布二者的相关性很强。我们一般用相关系数来衡量两者的相关程度,所以相关性计算其实就是计算相关系数,比较常用的是皮尔逊相关系数。

在Excel中求取相关系数用的是correl()函数,示例如下:

603fdee4629b4cd694ebfeb5af7cda6b.png

在Python中求取相关系数用的是corr()函数,示例如下:

2cdd039e2f0809a165d83c4704b8691e.png

还可以利用 corr()函数求取整个 DataFrame 表中各字段两两之间的相关性,示例如下:

d6d2aa6c8ce2e019f9152f38a5bb03d4.png

2a9b82da64cef093c90b06d14129120b.png

更多干货内容陆续分享给大家,请持续关注我们吧!可前往:大数据AI时代,所有职场人都在高薪奔跑,您怎能OUT?

11b2d7142e0be93ad40776316cb8d634.png

9924fb9d1cf226011846f96ce5ed5cbb.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/537282.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

数字化改革“152”体系详解

架构图 “1” 即一体化智能化公共数据平台(平台大脑),按照“统一规划、统一支撑、统一架构、统一平台、统一标准、统一建设、统一管理、统一运维"的要求,建设省市县三级公共数据平台,叠加三级“大脑功能&#xf…

数字化改革“141”体系

县级以上是“152”大框架,县以下是“141”体系。 141体系是:县级社会治理中心、乡镇(街道)基层治理“四个平台”、村社网格。 “1” 第一个“1”指县级社会治理中心。 “4” 第二个“4”指乡镇(街道)基…

接口做的好怎么形容_淘宝直播预告怎么做才合格?如何做好?

很多淘宝商家在直播前没有做淘宝直播预告,或者不知道怎么去做直播预告,这对直播的效果会有很大的影响,那么直播前如何做好直播预告呢?怎样的直播预告才是合格的,下面来了解一下。1.必须去淘宝直播中控台发布。因为手机上发布目前…

“1+7+N”改革工作体系介绍

2021年,浙江省确定了“17N”的改革工作体系,要求以全面深化改革新成效再创体制机制新优势。(2022年已经升级为“1612N”,点击阅读) “1” 数字化改革,这是浙江全面深化改革的总抓手。将聚焦打造全球数字变…

浙江省数字化改革回顾(2022年5月)

事业的伟大在于目标的壮丽,也在于过程的壮丽;改革的成果在于享有的丰富,也在于经历的丰富。2021年2月18日,春节假期后首个工作日,浙江省委召开全省数字化改革大会,在全国率先开启数字化改革探索实践。此后&…

python 某个数是不是在某个范围内_教写一个简单的python小程序(04)

点击蓝字关注我们 会酸的柚子Python爱好者搞机少年七夕结束了~酸柚也是被强塞了满嘴的狗粮在这样充满恋爱腐朽气息的一天酸柚也是马不停蹄的在赶稿子兄弟们,给我顶起来呀~我们来看看今日的题目可能很多小伙伴对完全平方数这个概念有点生疏了完全平方数数学上&#x…

浙江公布2022年数字化改革“最系列“成果 评选出最佳应用104项

10月29日,省委改革办(省数改办)公布了2022年数字化改革“最系列”成果。该评选由省委改革办(省数改办)会同省委政研室、省人大常委会法工委、省市场监管局和省大数据局共同开展,评选了最佳应用104项、最强大…

dot net core 使用 IPC 进程通信

原文:dot net core 使用 IPC 进程通信版权声明:博客已迁移到 http://lindexi.gitee.io 欢迎访问。如果当前博客图片看不到,请到 http://lindexi.gitee.io 访问博客。本文地址 https://blog.csdn.net/lindexi_gd/article/details/79946496 dot net core 使…

Android手机用wifi连接adb调试的方法

https://www.jianshu.com/p/dc6898380e38 0x0 前言 Android开发肯定要连接pc的adb进行调试,传统的方法是用usb与pc进行连接,操作简单即插即用,缺点是pc上必须得有对应手机的usb驱动程序,对于谷歌亲儿子系列和三星摩托等外国品牌而…

控制台应用程序换换为窗体应用_Epic为开发者设计了一套iPhone使用的运动捕捉应用程序...

玩懂手机网7月13日资讯,我们都知道对于游戏或者是动漫开发者来说,运动捕捉设备是一套非常昂贵的设备,需要非常专业的独立开发人员,大量的时间才能完成,最近Epic为开发者设计了一套iPhone使用的运动捕捉应用程序。这套i…

蚂蚁金服亿级并发下的移动端到端网络接入架构解析

为了与金融从业者、科技从业者共同探讨金融 业务的深层次问题,蚂蚁金服联手 TGO 鲲鹏会上海分会,在 12 月 8 日举办了「走进蚂蚁金服:双十一背后的蚂蚁金服技术支持」活动。蚂蚁金服高级技术专家贾岛为大家分享了《亿级并发下的蚂蚁移动端到…

如何根据视频的宽屏与竖屏来排序?

原理 宽屏与竖屏是根据 帧高度 与 帧宽度 来区分的 帧高度就是图片高度(纵向的像素尺寸),帧宽度就是图片宽度(横向的像素尺寸),分辨率就是(高度x宽度)。 windows11的文件排序&…

sap模块介绍_小迈说|SAP究竟有多少模块?

SAP究竟有哪些模块继上一期小迈说SAP!SPA?的区别,相信大部分读者明白了我们与水浴按摩行业的分别,可是仅仅区分名字还不够,SAP还有众多的模块,这些又该怎么去了解呢?这就轮到肩负爱与责任的小迈…

360 再次开源管理平台 Wayne:基于企业级 Kubernetes 集群

2019独角兽企业重金招聘Python工程师标准>>> 奇虎 360 宣布正式开源 Wayne ,这是一个由 360 搜索云平台团队开发的通用的、基于 Web 的 Kubernetes 多集群一站式可视化管理平台。内置了丰富多样的功能,满足企业的通用需求,同时插件…

Node.js 根本没有这样搞性能优化的?

1、使用最新版本的 Node.js 仅仅是简单的升级 Node.js 版本就可以轻松地获得性能提升,因为几乎任何新版本的 Node.js 都会比老版本性能更好,为什么? Node.js 每个版本的性能提升主要来自于两个方面: V8 的版本更新;Nod…

可交付成果、核实的可交付成果、验收的可交付成果?

①可交付成果。指的是在某一过程、阶段或项目完成时,产出的任何独特并可核实的产品、成果或服务。可交付成果可能是有形的,也可能是无形的。【研发完成】 ②核实的可交付成果。是指已经完成,并经过“控制质量”过程检查为正确的可交付成果。…

安装oracle到create inventory时卡住了怎么办_win10系统安装教程(官方工具)

Hi,大家好。对于小白用户,装系统是比较头疼的事,所以今天写一个简单易懂的装系统教程。使用微软官方提供的工具制作U盘启动盘,操作简单,系统纯净,强烈建议小白用户使用。缺点是该工具功能单一,并…

Linux的启动流程简析(以Debian为例)

Linux的启动流程简析(以Debian为例) 正文:前面的文章探讨BIOS和主引导记录的作用。那篇文章不涉及操作系统,只与主板的板载程序有关。今天,我想接着往下写,探讨操作系统接管硬件以后发生的事情,也就是操作系统的启动流…

一阶电路中的时间常数_精确移相电路的设计举例

移相电路就是对输入信号(一般是正弦波)进行相位控制,而不改变其幅度,本推文以移相电路为例,展示模拟电路的反馈设计技巧与方法:一、全通滤波器实现移相以上是两种移相电路 的原理,其输出幅度保持不变,移动的…