host域名主机服务商商务企业网站模板瑞安网站开发
web/
2025/9/25 22:40:31/
文章来源:
host域名主机服务商商务企业网站模板,瑞安网站开发,专业的网站制作公司地址,佛山 网站建设文章目录数据转换——transform()方法数据应用——apply()方法数据转换——transform()方法
使用aggregate()方法进行聚合运算已经在上一篇博客中详细阐述#xff0c;我们知道aggregate()方法返回的数据集的形状#xff08;shape#xff09;与被分组的数据集的形状是不同的…
文章目录数据转换——transform()方法数据应用——apply()方法数据转换——transform()方法
使用aggregate()方法进行聚合运算已经在上一篇博客中详细阐述我们知道aggregate()方法返回的数据集的形状shape与被分组的数据集的形状是不同的如果希望保持与原数据数据集形状相同则可以通过transfrom()方法实现。 transform(self, func, *args, **kwargs) 上述方法中只有一个func参数表示操作Pandas对象的函数该函数可以是内置方法也可以是自定义函数。
transform()方法返回的结果有两种
一种是可以广播的标量值np.mean一种可以是与分组大小相同的结果数组
通过transfrom()方法操作分组时该方法回将func()函数应用到各个分组中并且将结果放在适当的位置上。
下面通过实例来进一步了解该方法的具体功能。 创建测试对象
import pandas as pd
import numpy as npdf pd.DataFrame(np.arange(25).reshape(5, 5),indexlist([0, 1, 2, 3, 4]),columnslist(abcde))
df[key] pd.Series(datalist(AABBB), namekey)
print(df)输出结果 a b c d e key
0 0 1 2 3 4 A
1 5 6 7 8 9 A
2 10 11 12 13 14 B
3 15 16 17 18 19 B
4 20 21 22 23 24 B以key列进行分组可以将df对象拆分成A、B两组将mean()方法应用到每个分组中计算每个分组中每列的平均值。
代码如下
df_group df.groupby(key).transform(mean)
print(df_group)输出结果 a b c d e
0 2.5 3.5 4.5 5.5 6.5
1 2.5 3.5 4.5 5.5 6.5
2 15.0 16.0 17.0 18.0 19.0
3 15.0 16.0 17.0 18.0 19.0
4 15.0 16.0 17.0 18.0 19.0从输出结果可以看出每列的数据是各分组求得的平均数。操作过程是通过mean()方法算出均值一个标准量后将其广播。 不难发现上述示例中原始数据的列数与最终结果的列数是不一样的。
如果希望原始数据的列数与最终结果的列数是一样的。那么需要创建一个Series对象作为分组键而不是将原始数据中的列作为分组键。
创建测试对象
df1 DataFrame(np.arange(20).reshape(5, 4))
print(df1)输出结果 0 1 2 3
0 0 1 2 3
1 4 5 6 7
2 8 9 10 11
3 12 13 14 15
4 16 17 18 19然后创建一个列表keykey的长度需要与df1对象的行数是一样的我们将key当作分组键然后对每个分组执行求平均值的操作。
代码如下
key [one, one, two, two, two]
df1_group df1.groupby(bykey).transform(mean)
print(df1_group)输出结果 0 1 2 3
0 2 3 4 5
1 2 3 4 5
2 12 13 14 15
3 12 13 14 15
4 12 13 14 15数据应用——apply()方法
apply()方法的使用十分灵活它可以作用于DataFrame中的每一列、每一行元素还可以在许多标准用例中代替聚合和转换。
测试对象 a b c d e key
0 0 1 2 3 4 A
1 5 6 7 8 9 A
2 10 11 12 13 14 B
3 15 16 17 18 19 B
4 20 21 22 23 24 B运用apply()方法的代码如下
df_by_group df.groupby(key)def plus_ten(data_frame):return data_frame.iloc[:, :5] 10df_by_group_apply df_by_group.apply(funcplus_ten)
print(df_by_group_apply)输出结果 a b c d e
0 10 11 12 13 14
1 15 16 17 18 19
2 20 21 22 23 24
3 25 26 27 28 29
4 30 31 32 33 34也可以用内置方法进行数据应用
df1_by_group_apply1 df.iloc[:, :5].apply(funcmean)
print(df1_apply:\n, df1_by_group_apply1)输出结果
df1_apply:a 10.0
b 11.0
c 12.0
d 13.0
e 14.0
dtype: float64
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/81858.shtml
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!