Pandas 是 Python 中用于数据分析和处理的强大工具库。以下是 Pandas 中一些常见的函数和方法,按用途分类总结:
1. 数据创建
pd.Series(data, index):创建一维的序列对象。pd.DataFrame(data, index, columns):创建二维的DataFrame。pd.read_csv(filepath):从CSV文件中读取数据。pd.read_excel(filepath, sheet_name):从Excel文件中读取数据。pd.DataFrame.from_dict(data):从字典创建DataFrame。
2. 数据查看
df.head(n):查看前 n 行数据。df.tail(n):查看后 n 行数据。df.shape:返回数据的行数和列数。df.info():获取数据的基本信息。df.describe():对数值列进行统计汇总(均值、中位数等)。df.columns:查看列名。df.dtypes:查看每列的数据类型。
3. 数据选择与过滤
df['col_name']:选择单列数据,返回Series。df[['col1', 'col2']]:选择多列数据,返回DataFrame。df.iloc[row_idx, col_idx]:基于索引位置选择数据。df.loc[row_label, col_label]:基于标签选择数据。df[df['col_name'] > value]:基于条件过滤数据。
4. 数据清洗
df.isnull():检查缺失值,返回布尔值DataFrame。df.notnull():检查非缺失值。df.dropna(axis=0/1):删除缺失值所在的行或列。df.fillna(value):填充缺失值。df.replace(old_value, new_value):替换指定值。df.duplicated():检查重复行。df.drop_duplicates():删除重复行。
5. 数据操作
数据修改
df['new_col'] = value:添加新列。df.rename(columns={'old': 'new'}):重命名列名。df.set_index('col_name'):设置某列为索引。df.reset_index():重置索引。
数据排序
df.sort_values(by='col_name', ascending=True):按列排序。df.sort_index():按索引排序。
数据分组
df.groupby('col_name').sum():按列分组并求和。df.groupby('col_name').agg({'col1': 'mean', 'col2': 'sum'}):自定义分组聚合。
数据合并
pd.concat([df1, df2], axis=0):按行或列拼接数据。pd.merge(df1, df2, on='col_name', how='inner'):按键合并数据。df.join(other_df):按索引合并数据。
6. 数据分析
df['col_name'].value_counts():统计每个值的出现次数。df['col_name'].unique():查看唯一值。df['col_name'].nunique():统计唯一值个数。df.corr():计算相关系数。df.cov():计算协方差。df.pivot_table(values, index, columns, aggfunc):生成透视表。
7. 数据输出
df.to_csv('output.csv', index=False):导出到CSV文件。df.to_excel('output.xlsx', index=False):导出到Excel文件。df.to_json('output.json'):导出为JSON文件。
这些函数和方法覆盖了数据处理的主要场景,可以帮助快速完成数据的加载、清理、分析和输出。