学习统计让我们不再被一些数据迷惑进入数据陷进(例如平均工资)从而做出正确的决策。描述性统计分析包括数据的分布、集中、波动的测度指标。
平均值:一组数据的加和除以数据的个数(容易随极端值变化)
中位数:一串数位于中间的数值(不受极端值影响)
四分位数:把所有的数值有小到大排列分成四等分,处于三个分割点的数字就是四分位数,
箱线图分析不同类别数据的整体情况,识别异常值(最小估计值,最大估计值)
标准差:表示某个数据值相距平均值有多远,描述数据波动大小。标准差越小,表明数据越聚集波动校;标准差越大,表明数据越离散波动越大。
应用 :夏普比列、股价波动
标准分:某个数值距离平均值多少个标准差 应用:质量管理
变异系数:比较平均值不同的两组数据的波动的大小
例子:当两个班的平均分不一样对比哪个班的成绩波动大小
表二婴儿信息
user_id 用户账号
birthday 出生日期
gender 性别
表一购买商品
user_id 用户账号
auction_id 购买行为
cat_id 购买物品大类 童装 奶粉
cat1 购买物品细分 针织衫 连体衣 羊奶 牛奶
property 购买的属性 粉色 蓝色 进口 原产
buy_mount 购买数量
day 购买日期
分析的问题
年龄=购买日期-出生日期
不同年龄婴儿的需求 birthday cat_id cat1 buy_mount
不同性别婴儿的需求gender cat_id cat1 buy_mount
不同时间婴儿的需求day cat_id cat1 buy_mount
不同性别年龄的购买量 gender birthday buy_mount