 
 
 个人主页:在线OJ的阿川
 个人主页:在线OJ的阿川
大佬的支持和鼓励,将是我成长路上最大的动力 
阿川水平有限,如有错误,欢迎大佬指正 
 

前面的博客
数据分析—技术栈和开发环境搭建
数据分析—Numpy和Pandas库基本用法及实例
Python初阶
Python–语言基础与由来介绍
Python–注意事项
Python–语句与众所周知
相信看完,您会有所了解
这是个目录
- 数据分析流程
- 详细化
- 获取数据
- 数据格式
 
- 评估数据
- 数据错误类型
- 如何进行评估
 
数据分析流程
流程:
- 获取数据
- 读取数据
- 评估数据
- 清洗数据
- 整理数据
- 分析数据
- 可视化数据
详细化
获取数据
常见两种方式
- 公开数据集平台 - 飞桨
- 天池
- 和鲸社区
 
- 自己获取 - 公开API
- 爬虫
  
 
数据格式
让人喜欢的数据格式
- json(编程人员喜欢的格式) -  对象 
-  数组 -  对象和数组中的数据,通过解析加转换可以变成Python数据 
-  读取json格式文件实例(read_json): 
  
-  
 
-  
- scv(分析师喜欢的格式) - 体积小
- 结构工整
- 容易让人理解
 
- 读取csv格式文件实例(csv) - 实例目录 - read_csv 读取csv格式文件
- index_col 指定标签索引
- header 指定列标签
- set_option 展示更多想要的内容
- info 展示概况信息
- describe 展示统计学信息
 
 
- 实例目录 

 
 
 
评估数据
数据错误类型
数据错误主要分为
-  结构类 - 乱数据
- 整洁数据 - 每列是一个变量
- 每行是一个观察值
- 每个单元格是个一个值
  
 
 
-  内容类 - 脏数据 - 丢失数据
- 重复数据
- 不一致数据
- 无效/错误数据
 
- 干净数据
 
- 脏数据 
如何进行评估
针对结构类
- .head 看前几行
- .tail 看后几行
- .sample 随机几行
  
- 针对内容类
-  评估缺失值 -  info 可查看一些概况 
-  isnull 查看缺失值 - 搭配sum 可得缺失值的个数
  
 
-  
-  评估重复值 
- duplicated 一个值第1次出现为false,第2次出现为true - 参数subset 指定列条件
  
 
- 参数subset 指定列条件
-  评估不一致数据 
 value_counts 查看类型
  
-  评估无效/错误数据 -  用两种方法来尝试 - sort_values 看是否有值明显错误的数据
- descripbe 看是否有值明显错误的数据
 
 
-  

好的,到此为止啦,祝您变得更强

| 道阻且长 行则将至 | 
|---|
个人主页:在线OJ的阿川 大佬的支持和鼓励,将是我成长路上最大的动力
大佬的支持和鼓励,将是我成长路上最大的动力 