上一篇我们用 Pandas 读取了数据,还摸清了数据的“家底”——但实际工作中,你拿到的往往是“脏数据”:比如电商订单表里“销售额”列空了几行、同一订单重复录了3次、销量突然出现10000件(明显是多输了个0)……
这些“脏数据”会直接导致分析结果出错:比如用含空值的销售额算总和,结果会是“NaN”(无意义);重复订单会让总销量虚高;异常值会拉高平均值,让你误以为业务很好。数据分析师常说“数据脏,分析再牛也白费”,今天就教你用 Pandas 搞定三大脏数据:缺失值、重复值、异常值,每个方法都附电商实战代码,可以直接用。