一、本文简介
一组样本数据分布的数值特诊可以从三个方面进行描述:
1、数据的水平:也称为集中趋势或位置度量,反应全部数据的数值大小。
2、数据的差异:反应数据间的离散程度。
3、分布的形状:反应数据分布的偏度和峰度。
本文基于R实现描述数据的各统计量的计算方法。
二、描述水平的统计量
> head(iris[,-5],20)Sepal.Length Sepal.Width Petal.Length Petal.Width 1 5.1 3.5 1.4 0.2 2 4.9 3.0 1.4 0.2 3 4.7 3.2 1.3 0.2 4 4.6 3.1 1.5 0.2 5 5.0 3.6 1.4 0.2 6 5.4 3.9 1.7 0.4 7 4.6 3.4 1.4 0.3 8 5.0 3.4 1.5 0.2 9 4.4 2.9 1.4 0.2 10 4.9 3.1 1.5 0.1 11 5.4 3.7 1.5 0.2 12 4.8 3.4 1.6 0.2 13 4.8 3.0 1.4 0.1 14 4.3 3.0 1.1 0.1 15 5.8 4.0 1.2 0.2 16 5.7 4.4 1.5 0.4 17 5.4 3.9 1.3 0.4 18 5.1 3.5 1.4 0.3 19 5.7 3.8 1.7 0.3 20 5.1 3.8 1.5 0.3
2.1、平均数
> mean(iris$Sepal.Length) [1] 5.843333
2.2、分位数
1、中位数
> median(iris$Sepal.Length) [1] 5.8
2、四分位数
> quantile(iris$Sepal.Length,probs = c(0.25,0.75),type = 6) 25% 75% 5.1 6.4
3、百分位数
> quantile(iris$Sepal.Length,probs = c(0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9),type = 6)10% 20% 30% 40% 50% 60% 70% 80% 90% 4.80 5.00 5.23 5.60 5.80 6.10 6.30 6.58 6.90
2.3、众数
> which.max(table(iris$Sepal.Length)) 5 8
三、描述差异的统计量
3.1、极差和四分位数
1、极差
> range<-max(iris$Sepal.Length)-min(iris$Sepal.Length) > range [1] 3.6
2、四分位差
> IQR(iris$Sepal.Length,type = 6) [1] 1.3
3.2、方差和标准差
> var(iris$Sepal.Length) [1] 0.6856935 > sd(iris$Sepal.Length) [1] 0.8280661
3.3、变异系数
> mean<-apply(iris[,1:4],1,mean)
> sd<-apply(iris[,1:4],1,sd)
> cv<-sd/mean
> x<-data.frame("平均数"=mean,"标准差"=sd,"变异系数"=cv)
> round(x,4)平均数 标准差 变异系数
1 2.550 2.1794 0.8547
2 2.375 2.0370 0.8577
3 2.350 1.9975 0.8500
4 2.350 1.9122 0.8137
5 2.550 2.1564 0.8456
6 2.850 2.2308 0.7828
7 2.425 1.9363 0.7985
8 2.525 2.1093 0.8354
9 2.225 1.8228 0.8192
10 2.400 2.0688 0.8620
11 2.700 2.3080 0.8548
12 2.500 2.0166 0.8066
13 2.325 2.0320 0.8740
14 2.125 1.8839 0.8866
15 2.800 2.5665 0.9166
16 3.000 2.4671 0.8224
17 2.750 2.3072 0.8390
18 2.575 2.1438 0.8325
19 2.875 2.3698 0.8243
20 2.675 2.1731 0.8124
> boxplot(iris[,1:4],notch = TRUE,col = "lightblue",ylab="花瓣长度",xlab="长度")

3.4、标准分数
> as.vector(round(scale(iris[,1:4]),4))[1] -0.8977 -1.1392 -1.3807 -1.5015 -1.0184 -0.5354 -1.5015[8] -1.0184 -1.7430 -1.1392 -0.5354 -1.2600 -1.2600 -1.8638[15] -0.0523 -0.1731 -0.5354 -0.8977 -0.1731 -0.8977 -0.5354[22] -0.8977 -1.5015 -0.8977 -1.2600 -1.0184 -1.0184 -0.7769[29] -0.7769 -1.3807 -1.2600 -0.5354 -0.7769 -0.4146 -1.1392[36] -1.0184 -0.4146 -1.1392 -1.7430 -0.8977 -1.0184 -1.6223[43] -1.7430 -1.0184 -0.8977 -1.2600 -0.8977 -1.5015 -0.6561[50] -1.0184 1.3968 0.6722 1.2761 -0.4146 0.7930 -0.1731[57] 0.5515 -1.1392 0.9138 -0.7769 -1.0184 0.0684 0.1892[64] 0.3100 -0.2939 1.0345 -0.2939 -0.0523 0.4307 -0.2939[71] 0.0684 0.3100 0.5515 0.3100 0.6722 0.9138 1.1553[78] 1.0345 0.1892 -0.1731 -0.4146 -0.4146 -0.0523 0.1892[85] -0.5354 0.1892 1.0345 0.5515 -0.2939 -0.4146 -0.4146[92] 0.3100 -0.0523 -1.0184 -0.2939 -0.1731 -0.1731 0.4307[99] -0.8977 -0.1731 0.5515 -0.0523 1.5176 0.5515 0.7930 [106] 2.1214 -1.1392 1.7591 1.0345 1.6384 0.7930 0.6722 [113] 1.1553 -0.1731 -0.0523 0.6722 0.7930 2.2422 2.2422 [120] 0.1892 1.2761 -0.2939 2.2422 0.5515 1.0345 1.6384 [127] 0.4307 0.3100 0.6722 1.6384 1.8799 2.4837 0.6722 [134] 0.5515 0.3100 2.2422 0.5515 0.6722 0.1892 1.2761 [141] 1.0345 1.2761 -0.0523 1.1553 1.0345 1.0345 0.5515 [148] 0.7930 0.4307 0.0684 1.0156 -0.1315 0.3273 0.0979 [155] 1.2450 1.9333 0.7862 0.7862 -0.3610 0.0979 1.4745 [162] 0.7862 -0.1315 -0.1315 2.1627 3.0805 1.9333 1.0156 [169] 1.7039 1.7039 0.7862 1.4745 1.2450 0.5567 0.7862 [176] -0.1315 0.7862 1.0156 0.7862 0.3273 0.0979 0.7862 [183] 2.3922 2.6216 0.0979 0.3273 1.0156 1.2450 -0.1315
四、描述分布形状的统计量
4.1、偏度系数
> library(agricolae) > skewness(iris$Sepal.Length) [1] 0.314911
4.2、峰度系数
> kurtosis(iris$Sepal.Length) [1] -0.552064