做网站放到百度上需要什么wordpress搭建拒绝访问
做网站放到百度上需要什么,wordpress搭建拒绝访问,建站工具 开源,嘉祥县建设局官方网站文章目录 前言双变量数据分类型数据对分类型数据--二维表分类对分类--复式条形图分类对数值--并列箱线图 数值型数据对数值型数据散点图相关系数 练习 前言
上一篇文章介绍的是单变量数据#xff0c;本篇将介绍双变量数据。 双变量数据
描述分类数据对分类数据的描述方法本篇将介绍双变量数据。 双变量数据
描述分类数据对分类数据的描述方法二维表、复式条形图。 描述分类型数据对数值型数据的描述方法箱线图。 描述数值型数据对数值型数据的描述方法散点图、相关系数。
分类型数据对分类型数据–二维表
二维表two-dimensional table是两个变量进行交叉分类得到的频数表。 R的table()函数可以把双变量分类数据整理成 二维表形式 table()处理双变量数据类似处理单变量数据 只是参数变量由原来的一个变成了两个。
例题1 一份调查关于学生是否抽烟与每天学习时间关系的问题具体数据如下表所示 首先对数据进行编码 是否抽烟设为变量smoke其取值为Y和N分别表示抽烟和不抽烟 每天学习时间设为变量study 其取值为 5 h、510h和10h分别表示少于5小时、510小时和超过10小时。 在R中输入数据
smokec(Y,N,N,Y,N,Y,Y,Y,N,Y)
studyc(5h,5~10h,5~10h,10h,10h,5h,5~10h,5h,10h, 5~10h)
table(smoke, study)
dw-table(smoke,study)
dw这就是是否抽烟与学习时间的二维表列是学习时间的三个类型行表示是否抽烟。
例题2 生成被调查者所属社区与性别的列联表为列联表生成边际和并将列联表转化为百分比表绘制二维列联表的R代码如下所示
load(C:/example/ch2/example2_1.RData)
mytable1-table(example2_1$社区,example2_1$性别)#制作出社区与性别的二维列联表
addmargins(mytable1)#为列联表生成边际和addmargins()为表格加上边际和
addmargins(prop.table(mytable1))*100#为表格加上边际百分比对于二维表经常要计算某个数据占行、列汇总数的比例或是占总和的比例即边缘概率 R可以用函数prop.table(x,margin) 计算这些比例其命令是prop.table(x,margin) 当margin1时表示各个数据占行汇总数的比例 当margin2表示各个数据占列汇总数的比例省略时表示占总和的比例
dwtable(smoke,study)
prop.table(dw,1) 这里可以首先定义一个概率函数 然后用apply()函数求边缘概率。
propfunction(x) x/sum(x)
apply(dw,2,prop) 按行计算的边缘概率不能直接应用apply(tab,1,prop)而是要进行转置。
t(apply(dw,1,prop))分类对分类–复式条形图
多变量分析中经常用到复式条形图 复式条形图是指由两个或两个以上小直条构成的条形图与简单条形图相比复式条形图多了一个分组因素常用于考察比较两组研究对象的某观察指标。 R软件中作复式条形图的函数是barplot()。但是作复式条形图之前应先对数值数据进行分组 需要用table()函数作频数表。
例题1 我们以上面的分类数据为例作条形图粗略分析变量的分布情况。
par(mfrowc(1,3))#设置图形窗口以一行三列形式输出
barplot(table(smoke, study))#以study为分类变量作条形图
barplot(table(study,smoke))#以smoke为分类变量作条形图
barplot(table(study,smoke),besideT,legend.textc(5h,5~10h, 10h))#设置图例参数beside设置为False时作出的图是分段式条形图为True时作出的条形图是并列式R默认的是False。
分类对数值–并列箱线图
示例如下 有一个药物临床试验得到实验组和对照组两组数据。 实验组5,5,5,1,3,7,11,11,9,8 对照组11,8,4,5,9,5,10,5,4,10
xc(5,5,5,1,3,7,11,11,9,8)
yc(11,8,4,5,9,5,10,5,4,10)
boxplot(x,y) #把x和y的箱线图画在一起x变量的均值要小于y的均值x、y变量都是偏态分布x变量左偏y变量右偏。 还可以把试用前和试用后的数据放在一组另设一个虚拟变量比如记实验组为1对照组为2。
dc(5,5,5,1,3,7,11,11,9,8, 11,8,4,5,9,5,10,5,4,10)
gc(1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,2,2)
boxplot(d~g)或者使用更简洁的程序
dc(x,y)
gc(rep(1,10),rep(2,10)) #等价gc(1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,2,2)
boxplot(d~g)要注意的是d~ g分类变量要在~后面。
数值型数据对数值型数据
比较两个数值变量的方法有很多可以从不同角度去比较 比如对两个独立的数值变量既可以比较它们的分布是否相同也可以分析是否存在着某种相关关系、回归关系等。
散点图
散点图scatterplot可以展现和分析两个数值变量的关系在R里使用plot()函数做散点图。 下面是从国家统计局网站收集1999-2018年我国国内生产总值x和全社会固定资产投资y绘制二者的散点图
gdpc(90564.4,100280.1,110863.1,121717.4,137422,161840.2,187318.9,219438.5,270092.3,319244.6,348517.7,412119.3,487940.2,538580,592963.2,641280.6,685992.9,740060.8,820754.3,900309.5)
investc(29854.7,32917.7,37213.5,43499.9,55566.6,70477.4,88773.6,109998.2,137323.9,172828.4,224598.8,251683.8,311485.1,374694.7,446294.1,512020.7,561999.8,606465.7,641238.4,645675)绘出两个变量的散点图
plot(gdp,invest) #作gdp,invest变量的散点图
abline(lm(invest~gdp)) #添加趋势线可以看出国民生产总值与全社会固定资产投资两者之间有比较强的线性关系各个点大致分布在回归线的两边具有比较强的线性关系。
相关系数
两个数值变量之间的关系大体可分为两类 ①确定性关系研究是确定现象与非随机变量之间的关系 例如圆周长2πr ②统计相关关系研究非确定现象与随机变量之间的关系 例如家庭消费f(收入财富年龄消费观念) 对变量间统计依赖关系的考察主要是通过相关分析 correlation analysis或回归分析regression analysis来完成的。这里主要介绍相关分析。
Pearson相关系数(Pearson’s correlation coefficient)又叫相关系数或线性相关系数。它一般用字母r表示其公式为: Pearson相关系数(Pearson’s correlation coefficient)又叫相关系数或线性相关系数。它一般用字母r表示其公式为: 其中di xi − yixi和yi分别是两个变量按大小排位的等级n是样本量。 Spearman相关系数取值在-1~1之间与相关系数r有类似解释。
Kendallτ相关系数(Kendall’s τ) 是把所有的样本点配对然后看每一对中的X和Y的观测值是否同时增加(或减少) 比如由点对(x1,y1)和(x2,y2)可以算出乘积(x2-x1)(y2-y1) 是否大于0。如果大于0则说明X和Y同时增长或同时下降称这两点协同(concordant)否则就是不协同 如果样本中协同的点数目多则两个变量就更正相关一些如果样本中不协同(discordant)的点数目多两个变量就更负相关一些如果既不正相关也不负相关则为不相关。这里不用假设总体的分布也可以检验。因此这是一个非参数的度量。
Kendallτ也是在-1~1之间的数也是越接近于1或-1就越相关而接近0就不相关。 在R语言中求相关系数的函数是cor() 。 cor()函数默认求的是pearson相关系数。 在选项“method”进行设置,可以求spearman 秩相关系数 method”spearman” 和 Kendall τ相关系数method”kendall”。
例题1 求国民生产总值与全社会固定资产投资的相关系数。
cor(gdp,invest) [1] 0.9931347
cor(invest,gdp)[1] 0.9931347
结果说明这两个变量具有非常高的线性相关程度并且相关分析是不分自变量和因变量的 国民生产总值与全社会固定资产投资的相关系数等于全社会固定资产投资与国民生产总值的相关系数。
spearman秩相关系数如下
cor(gdp,invest, methodspearman)[1] 1 spearman秩相关是一种秩相关可先对数据求秩然后再计算它们的pearson相关 下面用R编程计算spearman相关R里的rank()函数提供了求秩功能。例如
cor(rank(gdp),rank(invest))[1] 1 结果说明两个变量具有非常强的正等级相关 类似可以计算Kendall τ相关系数 图2-13(a)看不出X和Y有任何关系这些点完全是杂乱无章的,它们看上去是不相关的。 图2-13(b)显示当X增加时Y大体上也增加,而且增加得较均匀有大体上斜着递增直线那样的趋势。有这种关系的变量就称为(正)线性相关。 图2-13©和图2-13(b)类似只不过有递减趋势称为(负)线性相关。 图2-13(d)也表现出两个变量的很强的关系但是不是线性的。
图2-13的四对变量的相关系数分别为-0.1395 , 0.9472 , -0.9393 , 0.3147 从相关系数上看图(a)中 的变量存在低度相关;图(b)和图©分别表现高度正线性相关和高度负线性相关图(d) 的变量肯定相关但不是线 性相关因此(线性)相关系数也很小。 练习
1、下面是我国十个城市2006年各月份气温数据提供数据exercise2_3不用自己录入 1按城市绘制箱线图说明数据分布特点
load(C:ch2/exercise2_3.RData)
boxplot(exercise2_3[,-1])
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/92574.shtml
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!