python数据分析(七):Pandas 数据变形与重塑

Pandas 数据变形与重塑全面指南

1. 引言

在数据分析过程中,我们经常需要将数据从一种结构转换为另一种结构,以适应不同的分析需求。Pandas 提供了丰富的数据变形与重塑功能,包括旋转(pivot)、堆叠(stack)、融合(melt)等多种操作。本文将详细介绍这些功能,并通过实际代码示例展示如何使用它们。

2. 透视表操作 (pivot 和 pivot_table)

2.1 pivot 基础操作

pivot 用于将长格式数据转换为宽格式。

import pandas as pd
import numpy as np# 创建示例数据
data = {'Date': ['2023-01-01', '2023-01-01', '2023-01-02', '2023-01-02'],'Variable': ['A', 'B', 'A', 'B'],'Value': [10, 20, 30, 40]
}
df = pd.DataFrame(data)# 使用pivot进行重塑
pivot_df = df.pivot(index='Date', columns='Variable', values='Value')
print("Pivot结果:\n", pivot_df)

输出:

Variable        A   B
Date                
2023-01-01    10  20
2023-01-02    30  40

解释:

  • index: 指定作为行索引的列
  • columns: 指定作为列名的列
  • values: 指定填充值的列

2.2 pivot_table 高级透视

pivot_table 支持聚合功能,适合处理重复值。

# 创建有重复值的数据
data = {'Date': ['2023-01-01', '2023-01-01', '2023-01-01', '2023-01-02'],'Variable': ['A', 'B', 'A', 'B'],'Value': [10, 20, 30, 40]
}
df = pd.DataFrame(data)# 使用pivot_table进行聚合
pivot_table_df = pd.pivot_table(df, values='Value', index='Date', columns='Variable', aggfunc=np.mean)
print("\nPivot Table结果:\n", pivot_table_df)

输出:

Value          A   B
Date                
2023-01-01    20  20
2023-01-02   NaN  40

解释:

  • aggfunc: 指定聚合函数,默认为np.mean
  • 可以处理重复值,对相同索引和列的组合进行聚合

3. 堆叠与反堆叠 (stack 和 unstack)

3.1 stack 操作

stack 将列转换为行,产生多级索引。

# 创建宽格式数据
wide_df = pd.DataFrame({'A': [1, 2],'B': [3, 4],'C': [5, 6]
}, index=['X', 'Y'])# 使用stack进行堆叠
stacked = wide_df.stack()
print("\nStack结果:\n", stacked)

输出:

X  A    1B    3C    5
Y  A    2B    4C    6
dtype: int64

3.2 unstack 操作

unstackstack 的逆操作,将行转换为列。

# 使用unstack进行反堆叠
unstacked = stacked.unstack()
print("\nUnstack结果:\n", unstacked)

输出:

   A  B  C
X  1  3  5
Y  2  4  6

4. 融合与宽变长 (melt 和 wide_to_long)

4.1 melt 操作

melt 将宽格式数据转换为长格式。

# 创建宽格式数据
wide_df = pd.DataFrame({'ID': [1, 2],'Name': ['Alice', 'Bob'],'Math': [90, 85],'Physics': [80, 75]
})# 使用melt进行融合
melted = pd.melt(wide_df, id_vars=['ID', 'Name'], value_vars=['Math', 'Physics'],var_name='Subject', value_name='Score')
print("\nMelt结果:\n", melted)

输出:

   ID   Name  Subject  Score
0   1  Alice     Math     90
1   2    Bob     Math     85
2   1  Alice  Physics     80
3   2    Bob  Physics     75

4.2 wide_to_long 操作

wide_to_long 是更灵活的宽变长转换方法。

# 创建复杂宽格式数据
wide_df = pd.DataFrame({'ID': [1, 2],'Name': ['Alice', 'Bob'],'Score_Math_2022': [90, 85],'Score_Physics_2022': [80, 75],'Score_Math_2023': [95, 88],'Score_Physics_2023': [85, 78]
})# 使用wide_to_long进行转换
long_df = pd.wide_to_long(wide_df, stubnames=['Score'], i=['ID', 'Name'], j='Year', sep='_', suffix='\\w+')
print("\nWide to Long结果:\n", long_df)

5. 虚拟变量转换 (get_dummies 和 from_dummies)

5.1 get_dummies 操作

get_dummies 将分类变量转换为虚拟/指示变量。

# 创建分类数据
df = pd.DataFrame({'Color': ['Red', 'Blue', 'Green', 'Blue', 'Red']
})# 使用get_dummies进行转换
dummies = pd.get_dummies(df, columns=['Color'])
print("\nGet Dummies结果:\n", dummies)

输出:

   Color_Blue  Color_Green  Color_Red
0           0            0          1
1           1            0          0
2           0            1          0
3           1            0          0
4           0            0          1

5.2 from_dummies 操作

from_dummiesget_dummies 的逆操作。

# 使用from_dummies还原分类变量
from_dummies_df = pd.from_dummies(dummies, sep='_')
print("\nFrom Dummies结果:\n", from_dummies_df)

6. 爆炸操作 (explode)

explode 将列表形式的元素拆分为多行。

# 创建包含列表的数据
df = pd.DataFrame({'ID': [1, 2],'Items': [['A', 'B'], ['C', 'D', 'E']]
})# 使用explode进行爆炸
exploded = df.explode('Items')
print("\nExplode结果:\n", exploded)

输出:

   ID Items
0   1     A
0   1     B
1   2     C
1   2     D
1   2     E

7. 交叉表 (crosstab)

crosstab 计算两个或多个因素的简单交叉表。

# 创建示例数据
data = {'Gender': ['Male', 'Female', 'Male', 'Female', 'Male'],'Preference': ['Yes', 'No', 'Yes', 'Yes', 'No']
}
df = pd.DataFrame(data)# 使用crosstab创建交叉表
cross_tab = pd.crosstab(df['Gender'], df['Preference'])
print("\nCrosstab结果:\n", cross_tab)

输出:

Preference  No  Yes
Gender            
Female      1    1
Male        1    2

8. 分箱操作 (cut)

cut 将连续变量离散化为区间。

# 创建连续数据
ages = [20, 22, 25, 27, 21, 23, 37, 31, 61, 45, 41, 32]# 使用cut进行分箱
bins = [18, 25, 35, 60, 100]
labels = ['18-25', '26-35', '36-60', '61+']
age_groups = pd.cut(ages, bins=bins, labels=labels)
print("\nCut结果:\n", age_groups)

9. 因子化操作 (factorize)

factorize 将分类变量编码为数值。

# 创建分类数据
colors = ['red', 'blue', 'green', 'blue', 'red']# 使用factorize进行编码
codes, uniques = pd.factorize(colors)
print("\nFactorize结果:")
print("编码:", codes)
print("唯一值:", uniques)

输出:

编码: [0 1 2 1 0]
唯一值: ['red' 'blue' 'green']

10. 总结

  1. 透视表操作:

    • pivot: 简单的长转宽操作,不支持聚合
    • pivot_table: 支持聚合的透视表,适合处理重复值
  2. 堆叠操作:

    • stack: 将列转换为行,产生多级索引
    • unstack: 将行转换为列,是stack的逆操作
  3. 融合操作:

    • melt: 将宽格式数据转换为长格式
    • wide_to_long: 更灵活的宽变长转换方法
  4. 虚拟变量转换:

    • get_dummies: 将分类变量转换为虚拟变量
    • from_dummies: 将虚拟变量转换回分类变量
  5. 爆炸操作:

    • explode: 将列表形式的元素拆分为多行
  6. 交叉表:

    • crosstab: 计算两个或多个因素的简单交叉表
  7. 分箱操作:

    • cut: 将连续变量离散化为区间
  8. 因子化操作:

    • factorize: 将分类变量编码为数值

选择合适的数据变形方法取决于:

  • 数据的原始结构和目标结构
  • 是否需要聚合操作
  • 是否需要处理重复值或列表数据

掌握这些数据变形与重塑技术将大大提高你在实际数据分析工作中的效率和灵活性,使你能轻松应对各种数据格式转换需求。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/903867.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Android学习总结之jetpack组件间的联系

在传统安卓开发中,UI 组件(Activity/Fragment)常面临三个核心问题: 生命周期混乱:手动管理 UI 与数据的绑定 / 解绑,易导致内存泄漏(如 Activity 销毁后回调仍在触发)。数据断层&am…

C++初阶:类和对象(二)

大家好,我是小卡皮巴拉 文章目录 目录 一.运算符重载 1.1 基本概念 定义 参数规则 特性 选择原则 重载要点 二.类的默认成员函数 2.1 构造函数 构造函数的特点 2.2 析构函数 析构函数的特点 2.3 拷贝构造函数 拷贝构造的特点 2.4 拷贝赋值运算符重…

【c++】【STL】priority_queue详解

目录 priority_queue的作用priority_queue的接口构造函数emptysizetoppushpopswap priority_queue的实现仿函数(函数对象)是什么?向上调整算法(adjustup)向下调整算法(adjustdown)迭代器构造pus…

测试——用例篇

目录 1. 测试用例 1.1 概念 2. 设计测试用例的万能公式 2.1 常规思考逆向思维发散性思维 2.2 万能公式 3. 设计测试用例例的方法 3.1 基于需求的设计方法 ​编辑 3.2 具体的设计方法 3.2.1 等价类 3.2.2 边界值 3.2.3 正交法 3.2.4 判定表法 3.2.5 场景法 3.2.6…

销售总监求职简历模板

模板信息 简历范文名称:销售总监求职简历模板,所属行业:其他 | 职位,模板编号:KREUNY 专业的个人简历模板,逻辑清晰,排版简洁美观,让你的个人简历显得更专业,找到好工作…

AE脚本 关键帧缓入缓出曲线调节工具 Flow v1.5.0 Win/Mac

Flow是一个非常好用的After Effects脚本,它可以让你更加轻松自如地调整关键帧的速度曲线,无需触碰老旧复杂的图形编辑器。 AE脚本介绍 Flow为After Effects带来了一个简洁的界面,使自定义动画曲线变得十分容易,无需深入研究速度和影响力这些让人困惑的概念 - 只需绘制一个曲线…

ACGRIME:用于全局优化和特征选择的自适应混沌高斯RIME优化器,附完整版免费代码

自然现象中,软冰的形成过程由 Set al. [42] 提出,软冰是空气中的过冷水滴在接触固体物体并冻结时形成的。这种现象发生在特定的气候条件下,当水蒸气尚未凝结时,导致冰覆盖的表面呈现出独特的树枝状和叶子状景观。它在软冰的生长和…

大模型开发学习笔记

文章目录 大模型基础大模型的使用大模型训练的阶段大模型的特点及分类大模型的工作流程分词化(tokenization)与词表映射 大模型的应用 进阶agent的组成和概念planning规划子任务分解ReAct框架 memory记忆Tools工具\工具集的使用langchain认知框架ReAct框架plan-and-Execute计划…

4.27-5.4学习周报

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 摘要Abstract一、方法介绍2.Rainbow Memory(RM)2.1多样性感知内存更新2.2通过数据增强增强样本多样性(DA) 二、使用步骤1.实验概况2.RM核心代码 总结 摘要 本博客概…

AI Rack架构高速互连的挑战:损耗设计与信号完整性的设计框架

在AI驱动的时代,系统设计已经从单一PCB的视角,逐步转向以整个rack为单位来考量。 对于信号完整性而言,焦点以不再局限于单一PCB上的损耗,而是扩展到芯片与芯片之间的端到端互连损耗(end-to-end interconnect loss&…

杭电oj(1180、1181)题解

目录 1180 题目 思路 问题概述 代码思路分析 1. 数据结构与全局变量 2. BFS 函数 bfs 3. 主函数 main 总结 代码 1181 题目 思路 1. 全局变量的定义 2. 深度优先搜索函数 dfs 3. 主函数 main 总结 代码 1180 题目 思路 注:当走的方向和楼梯方向一…

软件测试概念

这里写目录标题 需求开发模型软件生命周期瀑布模型螺旋模型增量模型、迭代模型敏捷模型Scrum 测试模型V模型W模型(双V模型) 需求 用户需求:没有经过合理的评估,通常就是一句话 软件需求:是开发人员和测试人员执行工作…

数字基带信号和频带信号的区别解析

数字基带信号和数字频带信号是通信系统中两种不同的信号形式,它们的核心区别在于是否经过调制以及适用的传输场景。以下是两者的主要区别和分析: 1. 定义与核心区别 数字基带信号(Digital Baseband Signal) 未经调制的原始数字信号…

Linux52 运行百度网盘 解决故障无法访问repo nosandbox 未解决:疑似libstdc++版本低导致无法运行baidu网盘

昨日参考 哦 我是root Cannot find a valid baseurl for repo: centos-sclo-rh/x86_64 没了 计划去手动下一个 还是不行 放弃 猜测是 centos7 过期了 一些依赖组件也没地方下载了 通过阿里云镜像站下载 之前安装的好像不是这个版本 还是计划用yum去下载依赖,先处…

2000-2022年上市公司数字经济专利申请数据

2000-2022年上市公司数字经济专利申请数据 1、时间:2000-2022年 2、来源:国家知识产权局 3、指标:年份、股票代码、股票简称、行业名称、行业代码、省份、城市、区县、行政区划代码、城市代码、区县代码、首次上市年份、上市状态、数字经济…

机器学习之五:基于解释的学习

正如人们有各种各样的学习方法一样,机器学习也有多种学习方法。若按学习时所用的方法进行分类,则机器学习可分为机械式学习、指导式学习、示例学习、类比学习、解释学习等。这是温斯顿在1977年提出的一种分类方法。 有关机器学习的基本概念,…

Chromium 134 编译指南 - Android 篇:安装构建依赖项(七)

1. 引言 欢迎来到《Chromium 134 编译指南》系列的第七篇文章!在前面的章节中,我们已经成功获取了Chromium源代码,并将其配置为支持Android平台。这些步骤为我们的编译之旅奠定了坚实的基础,但在开始实际编译之前,我们…

java 进阶 1.0

静态方法 static 就是能直接用,不用再new一个对象了 一般java中Math等静态类就是可以直接使用其方法 main函数里面不能包含太多的逻辑性语句,全部写成模块 写好程序之后如何测试呢? 使用junit,不能在main函数里测试 测试本身就…

中小企业MES系统详细设计

版本:V1.1 日期:2025年5月2日 一、设备协议兼容性设计 1.1 设备接入框架 #mermaid-svg-PkwqEMRIIlIBPP58 {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-PkwqEMRIIlIBPP58 .error-icon{fill…

Spring Security会话管理

用户认证通过后,为了避免用户的每次操作都进行认证,可以将用户的信息保存在会话中。会话就是系统为了保持当前用户的登录状态所提供的机制,常见的有基于Session方式、基于Token方式等。Spring Security提供会话管理功能,只需要配置…