今天举例的数据继续沿用昨天做出来的结果,至于这组数据还要接着用多久~~可能要混到我讲不下去为止吧~~~
我们通过两个不同的拟合公式得到了两组不同的残差值,数据情况如下:
有没有觉得看上面那张散点图有点糊啊?没错,问题就出在糊,我们仔细点看虽然也能瞧得出来,在横轴30附近有几个数值小得有点超出常规,但是,现在总体不过一百七十几个数做出来的图就已经长度不太够用了,要是数据再多点不就更不方便了么?
所以,我们需要一些既可以代表整串数据又相对样式简洁的表示方法:
1) 描述性统计——这个我前天用过一次,但是没有仔细讲,今天算是补上
Excel的数据分析加载项里有提供这个工具,可以一次性计算出数列的一些主要特征,工具位置见下图:
这里可以同时选中两列的,选好区域后记得勾上下面的Summary statistics
出来的计算结果如下(手动翻译,谁叫我用的是英文版Excel):
但是,俗话说的好,所谓字不如表,表不如图,光有这个还是不太全面,所以,根据上面描述统计里得到的最小值和最大值范围,咱再画个图吧
2) 直方图——这个图的做法我在上个月的某篇里单独写过,所以这里就省略一点,做法请参考之前那篇,结果见图
前篇链接:https://www.toutiao.com/i6593195962838024712/
图表输出:
从直方图的结果来看,倒是已经比较明显的可以找到离群值的位置,两组残差的离群值都是在-180以下的那几个数,这时如果需要剔除它们,只要设条件<-180筛选出来就行
以下是离群值的筛选结果,和上图中体现的个数也能对上:
3) 盒须图(箱线图)——这玩意名称有点多,我就列了两个,它和直方图的概念有点不一样,直方图体现的是同一个间隔里有多少个数值,而盒须图表示的是四分位数和中位数
这里有个比较麻烦的问题,Office是直到更新到了2016版才正式加入了盒须图的,在那之前的版本都没有,而本人非常不幸的是用的是相对古早的Office 2007版
自证一下版本:
虽然网上有提供利用四分位数公式和股价图的组合手工制作成盒须图的样式,但始终是比较麻烦而且丑,所以这里我用QUARTILE公式计算了数据,但是图是借助R软件来画的
第一组残差的离群值跟直方图的结果有一点点差异,但是第二组新残差整个分布比较集中,离群值就基本和前面的直方图一样了