数据分析流程

news/2025/11/4 22:48:25/文章来源:https://www.cnblogs.com/Ehotian/p/19191598
  1. 数据理解
    分析数据集基本结构(前/后10行)
    知识点:
    Pandas库:df.head(10), df.tail(10)
    数据框结构:理解什么是行(样本)、列(特征/变量)。
    识别变量类型:
    数据类型:
    数值型:
    连续型:可在一定范围内取任意值(如身高、温度)。
    离散型:只能取整数(如人数、物品数量)。
    类别型:
    定类型:无顺序的类别(如性别、城市)。
    定序型:有顺序的类别(如评分等级:高、中、低)。
    Pandas操作:df.dtypes(查看数据类型),df.info()(更全面的信息),df['column'].unique()(查看唯一值),df.describe()(数值型描述统计),df.describe(include='object')(类别型描述统计)。

  2. 数据清洗
    缺失值处理:
    识别缺失值:df.isnull().sum()
    处理策略:

  3. 删除:df.dropna()(适用于缺失量少,或该行/列不重要时)

  4. 填充:
    统计量填充:用均值、中位数(数值型)、众数(类别型)填充。df.fillna()
    模型预测填充:使用KNN、回归等模型预测缺失值(更复杂,但更科学)。
    前后值填充:df.fillna(method='ffill'或'bfill')(适用于时间序列数据)

  5. 数据整理
    数据集转化:
    特征工程:创建新特征(如从日期中提取“月份”、“星期几”)。
    类型转换:将类别变量转换为数值(如pd.get_dummies()进行独热编码)。
    数据合并:pd.concat(), pd.merge()

数据标准化:
目的:消除不同特征量纲和数值范围差异对模型的影响。
方法:
Z-score标准化:(x - mean) / std,使数据均值为0,标准差为1。from sklearn.preprocessing import StandardScaler
Min-Max归一化:(x - min) / (max - min),将数据缩放到[0, 1]区间。from sklearn.preprocessing import MinMaxScaler

3.数据集分割
目的:评估模型在未见过的数据上的性能,防止过拟合。
方法:from sklearn.model_selection import train_test_split
操作:X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42)

  1. 数据分析
    核心目标:通过统计和可视化深入探索数据内在规律。
    探索性数据分析
    可视化库:matplotlib, seaborn
    常用图表:
    单变量分析:直方图、箱线图(查看分布、异常值)。
    双变量分析:散点图(查看关系)、热力图(查看相关性)。
    描述性数据分析
    统计量:
    集中趋势:均值、中位数、众数。
    离散程度:标准差、方差、四分位距。
    分布形态:偏度、峰度。

5.回归预测分析
回归预测
算法:
线性回归:from sklearn.linear_model import LinearRegression
决策树回归:from sklearn.tree import DecisionTreeRegressor
随机森林回归:from sklearn.ensemble import RandomForestRegressor

分析模型可靠性 & 误差分析
评估指标:
均方误差:from sklearn.metrics import mean_squared_error
平均绝对误差:from sklearn.metrics import mean_absolute_error
R²决定系数:from sklearn.metrics import r2_score
残差分析:绘制残差图(预测值 vs 残差),理想情况应随机分布在0附近。

模型参数检验
线性回归:检查系数及其p-value,判断特征是否显著。
树模型:查看特征重要性 model.feature_importances_
报告回归结果:
汇总并解释模型系数、截距、评估指标、显著性等。

6.数据可视化
产生并输出表格:
Pandas DataFrame的格式化输出,使用.to_excel()或.to_csv()导出。
产生并输出图形:
柱状图/条形图:plt.bar(),用于比较不同类别的数值。
饼图:plt.pie(),用于显示组成部分占比。
散点图:plt.scatter(),用于展示两个变量之间的关系。
箱线图:sns.boxplot(),用于展示数据分布和异常值。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/956113.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2025 年 11 月闭式冷却塔厂家推荐排行榜,工业闭式冷却塔,横流闭式冷却塔,逆流闭式冷却塔,复合流闭式冷却塔公司推荐

2025年11月闭式冷却塔厂家推荐排行榜:工业闭式冷却塔、横流闭式冷却塔、逆流闭式冷却塔、复合流闭式冷却塔公司推荐 行业背景与发展趋势 闭式冷却塔作为工业冷却系统的核心设备,在电力、化工、冶金、数据中心等领域的…

2025 年 11 月锅炉厂家推荐排行榜,有机热载体锅炉,导热油锅炉,生物质锅炉,蒸汽锅炉,燃天然气锅炉,热水锅炉公司推荐

2025年11月锅炉厂家推荐排行榜:有机热载体锅炉、导热油锅炉、生物质锅炉、蒸汽锅炉、燃天然气锅炉、热水锅炉公司推荐 一、行业背景与发展趋势 随着全球能源结构转型和环保要求日益严格,锅炉行业正经历深刻变革。在&…

2025 年 11 月高温轴承厂家推荐排行榜,耐高温轴承,不锈钢高温轴承,高速高温轴承,定制高温轴承公司精选

2025 年 11 月高温轴承厂家推荐排行榜:耐高温轴承、不锈钢高温轴承、高速高温轴承、定制高温轴承公司精选 行业背景与发展趋势 高温轴承作为工业设备中的关键部件,在极端工况下承担着重要的传动和支撑功能。随着制造…

2025 年 11 月清洗机厂家推荐排行榜,高压清洗机,工业清洗机,超声波清洗机,零部件清洗设备公司推荐

2025年11月清洗机厂家推荐排行榜:高压清洗机、工业清洗机、超声波清洗机、零部件清洗设备公司专业解析 行业背景与发展趋势 随着制造业向高质量方向发展,清洗设备作为工业生产中不可或缺的环节,其技术水平和性能指标…

2025 年 11 月电缆厂家推荐排行榜,国标电缆/国网南网入围电缆,铜芯/铝合金/光伏/新能源/工业/控制/拖链/橡胶/铠装电缆公司推荐

2025年11月电缆厂家推荐排行榜:国标电缆/国网南网入围电缆,铜芯/铝合金/光伏/新能源/工业/控制/拖链/橡胶/铠装电缆公司推荐 一、行业背景与发展趋势 电线电缆作为国民经济建设的核心配套产业,其技术水平和产品质量…

9.22 未完成的情感投射

从未真正拥有却感觉失去了全世界的矛盾,才是最磨人 那个从未靠近的人,却像是从未醒来的梦,痛却从来找不到安放的位置 失去的从来不是那个人,而是在她身上倾注的无限可能和幻想 从未在一起的那个人,是心中从未竣工…

20232306 2025-2026-1 《网络与系统攻防技术》实验四实验报告

1、实验内容 一、恶意代码文件类型标识、脱壳与字符串提取 对提供的rada恶意代码样本,进行文件类型识别,脱壳与字符串提取,以获得rada恶意代码的编写作者,具体操作如下: (1)使用文件格式和类型识别工具,给出ra…

2025 年 11 月轮转印刷机厂家推荐排行榜,间歇式轮转印刷机,凸版/胶印/PS版间歇式轮转印刷机,专业印刷设备厂家推荐

2025年轮转印刷机专业选购指南:间歇式轮转印刷机品牌深度解析 行业背景与发展趋势 轮转印刷机作为现代印刷工业的核心装备,在包装印刷、商标印刷、出版印刷等领域发挥着不可替代的作用。随着数字技术与传统印刷工艺的…

2025 年 11 月电磁铁厂家推荐排行榜,直流电磁铁,微型电磁铁,小型电磁铁,防爆电磁铁,比例电磁铁,非标电磁铁定制公司推荐

2025年11月电磁铁厂家推荐排行榜:直流电磁铁、微型电磁铁、小型电磁铁、防爆电磁铁、比例电磁铁、非标电磁铁定制公司推荐 行业背景与发展趋势 电磁铁作为现代工业自动化领域的核心执行元件,其技术发展与应用广度持续…

2025 年 11 月柱塞泵厂家权威推荐榜:高压柱塞泵/液压柱塞泵/气动柱塞泵/电动柱塞泵/小型柱塞泵/超高压柱塞泵/往复式柱塞泵公司精选

2025 年 11 月柱塞泵厂家权威推荐榜:高压柱塞泵/液压柱塞泵/气动柱塞泵/电动柱塞泵/小型柱塞泵/超高压柱塞泵/往复式柱塞泵公司精选 柱塞泵作为工业领域的核心动力设备,在石油化工、船舶制造、建筑工程、金属加工等行…

大文件上传公共库

大文件上传 背景:如果上传的企业资料或会议视频等大文件不做特殊处理可能会出现:网络中断、程序异常退出等问题导致上传失败,从而不得不全部重新上传同一文件被不同用户反复上传,白白占用网络和服务器存储资源大文…

2025 年 11 月电磁阀厂家推荐排行榜,高压电磁阀,防爆电磁阀,比例电磁阀,汽车电磁阀,ABS电磁阀,ESP电磁阀,车用ESC电磁阀公司推荐

2025年11月电磁阀厂家推荐排行榜:高压电磁阀、防爆电磁阀、比例电磁阀、汽车电磁阀、ABS电磁阀、ESP电磁阀、车用ESC电磁阀公司推荐 行业背景与发展趋势 电磁阀作为工业自动化控制系统中的重要执行元件,其技术发展与…

2025 年 11 月 EVA 厂家推荐排行榜,EVA发泡胶/EVA板材/EVA卷材/EVA片材,防火EVA/阻燃EVA/防静电EVA/去味EVA/高弹EVA/彩色EVA公司推荐

2025 年 11 月 EVA 厂家推荐排行榜,EVA发泡胶/EVA板材/EVA卷材/EVA片材,防火EVA/阻燃EVA/防静电EVA/去味EVA/高弹EVA/彩色EVA公司推荐 行业背景与发展趋势 乙烯-醋酸乙烯共聚物(EVA)材料作为一种重要的高分子材料,…

2025 年 11 月控制器厂家推荐排行榜,开关控制器,自动控制器,阀门控制器,智能控制器,限位开关控制器公司推荐

2025年11月控制器厂家推荐排行榜:开关控制器、自动控制器、阀门控制器、智能控制器、限位开关控制器公司推荐 一、行业背景与发展趋势 随着工业自动化水平的不断提升,控制器作为工业控制系统的核心部件,在智能制造、…

请求库的封装

请求库的封装(基建) 基建——不绑定上层实现axios:虽然成熟但只是基础库,没有上层功能如:请求重试请求缓存请求幂等请求串行请求并发VueRequest/SWR:用于数据请求管理的库,主要解决前端在请求数据时的缓存、重试…

[jupyter]

以下是在项目的 .venv 虚拟环境中配置 JupyterLab 并使用的完整命令套装,按步骤执行即可: 1. 进入项目目录并创建/激活虚拟环境 # 进入你的项目目录(替换为实际路径) cd /path/to/your/project# 用 uv 创建 .venv …

2025 年 11 月管道泵厂家推荐排行榜,新型管道泵,节能管道泵,低噪声管道泵,超低压管道泵,防爆管道泵,高压管道泵,防腐管道泵,SF管道泵,SFB管道泵,WF屋顶管道泵公司推荐

2025年11月管道泵厂家推荐排行榜:新型节能低噪声管道泵专业指南 行业背景与发展现状 管道泵作为流体输送系统的核心设备,在工业、建筑、市政等领域发挥着不可替代的作用。随着节能减排政策的深入推进和智能化技术的广…

2025 年 11 月冷却塔厂家推荐排行榜,工业冷却塔,开式冷却塔/钢制开式冷却塔,封闭式冷却塔/密闭式冷却塔,蒸发式冷却塔公司推荐

2025年11月冷却塔厂家推荐排行榜:工业冷却塔技术发展与选购指南 冷却塔作为工业制冷系统中的关键设备,其性能优劣直接影响生产效率和能源消耗。随着工业4.0时代的深入发展,冷却塔行业正经历着技术革新与产业升级的双…

.NET+AI: (微家的AI研发框架)什么是内核记忆(Kernel Memory)?

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …