Python Pandas(3):DataFrame

1 介绍

        DataFrame 是 Pandas 中的另一个核心数据结构,类似于一个二维的表格或数据库中的数据表。它含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔型值)。DataFrame 既有行索引也有列索引,它可以被看做由 Series 组成的字典(共同用一个索引),提供了各种功能来进行数据访问、筛选、分割、合并、重塑、聚合以及转换等操作。DataFrame 是一个非常灵活且强大的数据结构,广泛用于数据分析、清洗、转换、可视化等任务。

1.1 DataFrame 特点

  • 二维结构: DataFrame 是一个二维表格,可以被看作是一个 Excel 电子表格或 SQL 表,具有行和列。可以将其视为多个 Series 对象组成的字典。
  • 列的数据类型: 不同的列可以包含不同的数据类型,例如整数、浮点数、字符串或 Python 对象等。
  • 索引DataFrame 可以拥有行索引和列索引,类似于 Excel 中的行号和列标。
  • 大小可变:可以添加和删除列,类似于 Python 中的字典。
  • 自动对齐:在进行算术运算或数据对齐操作时,DataFrame 会自动对齐索引。
  • 处理缺失数据DataFrame 可以包含缺失数据,Pandas 使用 NaN(Not a Number)来表示。
  • 数据操作:支持数据切片、索引、子集分割等操作。
  • 时间序列支持DataFrame 对时间序列数据有特别的支持,可以轻松地进行时间数据的切片、索引和操作。
  • 丰富的数据访问功能:通过 .loc.iloc 和 .query() 方法,可以灵活地访问和筛选数据。
  • 灵活的数据处理功能:包括数据合并、重塑、透视、分组和聚合等。
  • 数据可视化:虽然 DataFrame 本身不是可视化工具,但它可以与 Matplotlib 或 Seaborn 等可视化库结合使用,进行数据可视化。
  • 高效的数据输入输出:可以方便地读取和写入数据,支持多种格式,如 CSV、Excel、SQL 数据库和 HDF5 格式。
  • 描述性统计:提供了一系列方法来计算描述性统计数据,如 .describe().mean().sum() 等。
  • 灵活的数据对齐和集成:可以轻松地与其他 DataFrame 或 Series 对象进行合并、连接或更新操作。
  • 转换功能:可以对数据集中的值进行转换,例如使用 .apply() 方法应用自定义函数。
  • 滚动窗口和时间序列分析:支持对数据集进行滚动窗口统计和时间序列分析。

1.2 创建DataFrame

        DataFrame 构造方法如下:

pandas.DataFrame(data=None, index=None, columns=None, dtype=None, copy=False)
  • data:DataFrame 的数据部分,可以是字典、二维数组、Series、DataFrame 或其他可转换为 DataFrame 的对象。如果不提供此参数,则创建一个空的 DataFrame。
  • index:DataFrame 的行索引,用于标识每行数据。可以是列表、数组、索引对象等。如果不提供此参数,则创建一个默认的整数索引。
  • columns:DataFrame 的列索引,用于标识每列数据。可以是列表、数组、索引对象等。如果不提供此参数,则创建一个默认的整数索引。
  • dtype:指定 DataFrame 的数据类型。可以是 NumPy 的数据类型,例如 np.int64np.float64 等。如果不提供此参数,则根据数据自动推断数据类型。
  • copy:是否复制数据。默认为 False,表示不复制数据。如果设置为 True,则复制输入的数据。

1.2.1 使用列表创建

import pandas as pddata = [['Google', 10], ['Bing', 12], ['Wiki', 13]]# 创建DataFrame
df = pd.DataFrame(data, columns=['Site', 'Age'])# 使用astype方法设置每列的数据类型
df['Site'] = df['Site'].astype(str)
df['Age'] = df['Age'].astype(float)print(df)

1.2.2 使用字典创建

import pandas as pddata = {'Site': ['Google', 'Bing', 'Wiki'], 'Age': [10, 12, 13]}df = pd.DataFrame(data)print(df)

1.2.3 使用ndarrays 创建

import numpy as np
import pandas as pd# 创建一个包含网站和年龄的二维ndarray
ndarray_data = np.array([['Google', 10],['Bing', 12],['Wiki', 13]
])# 使用DataFrame构造函数创建数据帧
df = pd.DataFrame(ndarray_data, columns=['Site', 'Age'])# 打印数据帧
print(df)

1.2.4 使用字典(key/value)

import pandas as pddata = [{'a': 1, 'b': 2}, {'a': 5, 'b': 10, 'c': 20}]df = pd.DataFrame(data)print(df)

        没有对应的部分数据为 NaN

1.2.5 从 Series 创建 DataFrame

import pandas as pd# 从 Series 创建 DataFrame
s1 = pd.Series(['Alice', 'Bob', 'Charlie'])
s2 = pd.Series([25, 30, 35])
s3 = pd.Series(['New York', 'Los Angeles', 'Chicago'])
df = pd.DataFrame({'Name': s1, 'Age': s2, 'City': s3})
print(df)

1.3 loc属性

        Pandas 可以使用 loc 属性返回指定行的数据,如果没有设置索引,第一行索引为 0,第二行索引为 1,以此类推:

import pandas as pddata = {"calories": [420, 380, 390],"duration": [50, 40, 45]
}# 数据载入到 DataFrame 对象
df = pd.DataFrame(data)# 返回第一行
print(df.loc[0])
# 返回第二行
print(df.loc[1])

        返回结果其实就是一个 Pandas Series 数据。也可以返回多行数据,使用 [[ ... ]] 格式,... 为各行的索引,以逗号隔开:

import pandas as pddata = {"calories": [420, 380, 390],"duration": [50, 40, 45]
}# 数据载入到 DataFrame 对象
df = pd.DataFrame(data)# 返回第一行和第二行
print(df.loc[[0, 1]])

        返回结果其实就是一个 Pandas DataFrame 数据。我们可以指定索引值,如下实例:

import pandas as pddata = {"calories": [420, 380, 390],"duration": [50, 40, 45]
}df = pd.DataFrame(data, index=["day1", "day2", "day3"])print(df)

        Pandas 可以使用 loc 属性返回指定索引对应到某一行:

import pandas as pddata = {"calories": [420, 380, 390],"duration": [50, 40, 45]
}df = pd.DataFrame(data, index=["day1", "day2", "day3"])# 指定索引
print(df.loc["day2"])

2 DataFrame 方法

方法名称功能描述
head(n)返回 DataFrame 的前 n 行数据(默认前 5 行)
tail(n)返回 DataFrame 的后 n 行数据(默认后 5 行)
info()显示 DataFrame 的简要信息,包括列名、数据类型、非空值数量等
describe()返回 DataFrame 数值列的统计信息,如均值、标准差、最小值等
shape返回 DataFrame 的行数和列数(行数, 列数)
columns返回 DataFrame 的所有列名
index返回 DataFrame 的行索引
dtypes返回每一列的数值数据类型
sort_values(by)按照指定列排序
sort_index()按行索引排序
dropna()删除含有缺失值(NaN)的行或列
fillna(value)用指定的值填充缺失值
isnull()判断缺失值,返回一个布尔值 DataFrame
notnull()判断非缺失值,返回一个布尔值 DataFrame
loc[]按标签索引选择数据
iloc[]按位置索引选择数据
at[]访问 DataFrame 中单个元素(比 loc[] 更高效)
iat[]访问 DataFrame 中单个元素(比 iloc[] 更高效)
apply(func)对 DataFrame 或 Series 应用一个函数
applymap(func)对 DataFrame 的每个元素应用函数(仅对 DataFrame)
groupby(by)分组操作,用于按某一列分组进行汇总统计
pivot_table()创建透视表
merge()合并多个 DataFrame(类似 SQL 的 JOIN 操作)
concat()按行或按列连接多个 DataFrame
to_csv()将 DataFrame 导出为 CSV 文件
to_excel()将 DataFrame 导出为 Excel 文件
to_json()将 DataFrame 导出为 JSON 格式
to_sql()将 DataFrame 导出为 SQL 数据库
query()使用 SQL 风格的语法查询 DataFrame
duplicated()返回布尔值 DataFrame,指示每行是否是重复的
drop_duplicates()删除重复的行
set_index()设置 DataFrame 的索引
reset_index()重置 DataFrame 的索引
transpose()转置 DataFrame(行列交换)
import pandas as pd# 创建 DataFrame
data = {'Name': ['Alice', 'Bob', 'Charlie', 'David'],'Age': [25, 30, 35, 40],'City': ['New York', 'Los Angeles', 'Chicago', 'Houston']
}
df = pd.DataFrame(data)# 查看前两行数据
print('--------查看前两行数据--------')
print(df.head(2))# 查看 DataFrame 的基本信息
print('--------查看 DataFrame 的基本信息--------')
print(df.info())# 获取描述统计信息
print('--------获取描述统计信息--------')
print(df.describe())# 按年龄排序
print('--------按年龄排序--------')
df_sorted = df.sort_values(by='Age', ascending=False)
print(df_sorted)# 选择指定列
print('--------选择指定列--------')
print(df[['Name', 'Age']])# 按索引选择行
print('--------按索引选择行--------')
print(df.iloc[1:3])  # 选择第二到第三行(按位置)# 按标签选择行
print('--------按标签选择行--------')
print(df.loc[1:2])  # 选择第二到第三行(按标签)# 计算分组统计(按城市分组,计算平均年龄)
print('--计算分组统计(按城市分组,计算平均年龄)--')
print(df.groupby('City')['Age'].mean())# 处理缺失值(填充缺失值)
df['Age'] = df['Age'].fillna(30)# 导出为 CSV 文件
df.to_csv('output.csv', index=False)

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/69257.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ubuntu下迁移docker文件夹

在 Ubuntu 系统中迁移 Docker 文件夹(如 Docker 数据存储文件夹 /var/lib/docker)到另一个磁盘或目录,通常是为了释放系统盘空间。以下是迁移过程的详细步骤: 1. 停止 Docker 服务 在进行迁移之前,必须停止 Docker 服…

MySQL实战-解决方案

1. MySQL 主从集群同步延迟问题的解决方案 在主从复制架构中,主库执行写操作后,将更新事件写入 Binlog,从库通过 I/O 线程将 Binlog 数据同步到本地的 Relay Log,再由 SQL 线程解析并执行,从而保持数据一致性。然而&a…

Spring 核心技术解析【纯干货版】- VIII:Spring 数据访问模块 Spring-Tx 模块精讲

在企业级开发中,事务管理是保障数据一致性和完整性的重要手段。Spring 作为 Java 生态中广泛使用的框架,其事务管理模块(Spring-Tx)不仅提供了强大的功能,还极大地简化了开发者在不同技术栈中的事务处理工作。无论是编…

Windows Docker笔记-安装docker

安装环境 操作系统:Windows 11 家庭中文版 docker版本:Docker Desktop version: 4.36.0 (175267) 注意: Docker Desktop 支持以下Windows操作系统: 支持的版本:Windows 10(家庭版、专业版、企业版、教育…

Android学习20 -- 手搓App2(Gradle)

1 前言 昨天写了一个完全手搓的:Android学习19 -- 手搓App-CSDN博客 后面谷歌说不要用aapt,d8这些来搞。其实不想弄Gradle的,不过想着既然开始了,就多看一些。之前写过一篇Gradle,不过是最简单的编译,不涉…

[ Spring] Integrate Spring Boot Dubbo with Nacos 2025

文章目录 Dubbo Project StructureDeclare Plugins and RepositoriesIntroduce DependenciesDubbo Consumer PropertiesDubbo Provider ApplicationDubbo Provider ServiceDubbo Consumer PropertiesDubbo Consumer ApplicationDubbo Consumer ControllerCommand References Du…

团建 蓝桥杯省a 15

问题描述 小蓝正在和朋友们团建,有一个游戏项目需要两人合作,两个人分别拿到一棵大小为 nn 和 mm 的树,树上的每个结点上有一个正整数权值。 两个人需要从各自树的根结点 1 出发走向某个叶结点,从根到这个叶结点的路径上经过的所…

Ubuntu下Tkinter绑定数字小键盘上的回车键(PySide6类似)

设计了一个tkinter程序&#xff0c;在Win下绑定回车键&#xff0c;直接绑定"<Return>"就可以使用主键盘和小键盘的回车键直接“提交”&#xff0c;到了ubuntu下就不行了。经过搜索&#xff0c;发现ubuntu下主键盘和数字小键盘的回车键&#xff0c;名称不一样。…

单硬盘槽笔记本更换硬盘

背景 本人的笔记本电脑只有一个硬盘槽&#xff0c;而且没有M.2的硬盘盒&#xff0c;只有一个移动硬盘 旧硬盘&#xff1a;512G 新硬盘&#xff1a;1T 移动硬盘&#xff1a;512G 参考链接&#xff1a;https://www.bilibili.com/video/BV1iP41187SW/?spm_id_from333.1007.t…

matplotlib绘制三维曲面图时遇到的问题及解决方法

在科学计算和数据可视化中&#xff0c;三维曲面图是非常有用的工具&#xff0c;可以直观地展示数据的三维分布和关系。Matplotlib是Python中广泛使用的数据可视化库之一&#xff0c;提供了强大的三维绘图功能。然而&#xff0c;在实际使用过程中&#xff0c;用户可能会遇到各种…

vscode 如何通过Continue引入AI 助手deepseek

第一步&#xff1a; 在deepseek 官网上注册账号&#xff0c;得到APIKeys(deepseek官网地址) 创建属于自己的APIKey,然后复制这个key,(注意保存自己的key)! 第二步&#xff1a; 打开vscode,在插件市场安装Continue插件, 点击设置&#xff0c;添加deepseek模型&#xff0c;默认…

计算机网络——三种交换技术

目录 电路交换——用于电话网络 电路交换的优点&#xff1a; 电路交换的缺点&#xff1a; 报文交换——用于电报网络 报文交换的优点&#xff1a; 报文交换的缺点&#xff1a; 分组交换——用于现代计算机网络 分组交换的优点&#xff1a; 分组交换的缺点 电路交换——…

【Go语言快速上手】第一部分:Go 语言基础

文章目录 引言Go 语言的历史Go 语言的特点与优势学习 Go 语言的意义 1. Go 语言基础1.1 环境搭建下载和安装 Go 语言 SDK配置环境变量 (GOROOT, GOPATH)选择合适的 IDE 或编辑器 1.2 Go 语言基本语法变量声明与赋值变量作用域和生命周期 1.3 数据类型基本类型复合类型控制流if …

PostgreSQL函数自动Commit/Rollback所带来的问题

一、综述 今天在PostgreSQL遇到一个奇怪的现象&#xff0c;简而言之&#xff0c;是想用函数&#xff08;存储过程&#xff09;实现插入记录&#xff0c;整个过程没报错但事后却没找到记录&#xff01;忙活半天&#xff0c;才发现原因是PostgreSQL函数&#xff08;存储过程&…

linux 进程补充

环境变量 基本概念 环境变量(environment variables)一般是指在操作系统中用来指定操作系统运行环境的一些参数 如&#xff1a;我们在编写C/C代码的时候&#xff0c;在链接的时候&#xff0c;从来不知道我们的所链接的动态静态库在哪 里&#xff0c;但是照样可以链接成功&#…

Spring Boot常用注解深度解析:从入门到精通

今天&#xff0c;这篇文章带你将深入理解Spring Boot中30常用注解&#xff0c;通过代码示例和关系图&#xff0c;帮助你彻底掌握Spring核心注解的使用场景和内在联系。 一、启动类与核心注解 1.1 SpringBootApplication 组合注解&#xff1a; SpringBootApplication Confi…

前部分知识复习05

一、多级渐远贴图MipMap 选择贴图&#xff0c;可以勾选贴图的多级渐远效果 [IntRange]_MipMap("MipMap",Range(0,12))0 //多级渐远贴图的LOD调节滑杆 _MipMapTexture("MipMapTexture",2D)"white"{} //定义多级渐远贴图 多级渐远贴图的采样…

解锁反序列化漏洞:从原理到防护的安全指南

目录 前言 一、什么是反序列化 二、反序列化漏洞原理 三、反序列化漏洞的危害 &#xff08;一&#xff09;任意代码执行 &#xff08;二&#xff09;权限提升 &#xff08;三&#xff09;数据泄露与篡改 四、常见的反序列化漏洞场景 &#xff08;一&#xff09;PHP 反…

理解 C 与 C++ 中的 const 常量与数组大小的关系

博客主页&#xff1a; [小ᶻ☡꙳ᵃⁱᵍᶜ꙳] 本文专栏: C语言 文章目录 &#x1f4af;前言&#x1f4af;数组大小的常量要求&#x1f4af;C 语言中的数组大小要求&#x1f4af;C 中的数组大小要求&#x1f4af;为什么 C 中 const 变量可以作为数组大小&#x1f4af;进一步的…

MAC OS安装Homebrew

文章目录 1.下载Homebrew2.完成安装3.验证安装4.更新 Homebrew作为一个包管理器&#xff0c;提供了一种简便的方式来安装、更新和卸载各种命令行工具和应用程序。相比于手动下载和编译源代码&#xff0c;或者从不同的网站下载安装包&#xff0c;使用Homebrew可以显著减少这些操…