Python pandas数据分析:
2022找工作是学历、能力和运气的超强结合体,遇到寒冬,大厂不招人,可能很多算法学生都得去找开发,测开
测开的话,你就得学数据库,sql,oracle,尤其sql要学,当然,像很多金融企业、安全机构啥的,他们必须要用oracle数据库
这oracle比sql安全,强大多了,所以你需要学习,最重要的,你要是考网络警察公务员,这玩意你不会就别去报名了,耽误时间!
与此同时,既然要考网警之数据分析应用岗,那必然要考数据挖掘基础知识,今天开始咱们就对数据挖掘方面的东西好生讲讲 最最最重要的就是大数据,什么行测和面试都是小问题,最难最最重要的就是大数据技术相关的知识笔试
文章目录
- Python pandas数据分析:
- @[TOC](文章目录)
- Python pandas数据分析:
- 总结
文章目录
- Python pandas数据分析:
- @[TOC](文章目录)
- Python pandas数据分析:
- 总结
Python pandas数据分析:



语言这行
df[内部控制字段的条件]

大小写有问题


包含Python的哪些列揪出来
简单方法多好啊,搞那么多锤子作甚
直接输出columns

修改列名字
rename
把字段score改为这个population

value_counts()



中间是控制条件
去重
drop_diplicates


list转呗
.tolist()

数据.to_excel(路径)



交换两个列的位置

max

拿最大行

删除最后那个位置

增加一行
写个字典
然后append吧

sort_values()


lambda的目的是定义x
然后f(x)处理返回值,放到新的字段中
读取数据

查看数据的前几行
head()

中间可以加参数
切割split
转数字为int
把字符去掉strip(‘k’)
最大最小值拿到后,求取平均
apply是合并,用函数func去合并了,但是func是一条一条去处理

这个合并的用法,相当于单独处理那一列,懂???
这些应该学学
根据学历分组
算平均薪资
分组聚合
groupby关键字
mean求均值

把月日格式输出
.format?
一个个循环
for i in range(len(df)):
ix是啥?底i行?第0列
转为pydatetime
.strftime(“%m-%d”)月日

查看索引,数据类型和内存信息
info

数值型列的汇总

新增一列,将薪水分为三组
bins搞三个区间
然后分组仨名字,用啥函数来搞可能
新启动一列,cut切割,谁?薪水,按bins切割,然后名字的labels挂上

sort_values(字段,ascending=False),降序
True是升序

按照salary来排序
取出行
loc

中位数
np能,
np.median(df中salary数据)
pandas也能

绘制薪资的频率分布直方图
有matplotlib.pyplot
plt
df.salary.plot(kind=‘hist’)
直接用它自带的属性

df.salary.plot(kind=‘kde’, xlim=(0,8000))水平密度线

水平的密度
薪资有多人?
删除列
drop

合并两列


最值只差
apply:
lambda x:x.max()-x.min()

中间多了[]这个是啥意思
总之就似乎它的最大小之差

第8行加到末尾
append

好像loc和iloc都能获取行

数据的类型
dtypes
设置索引
setindex



减法,继续增加一列
直接干字段,后面跟着数据


包含缺失值吗


大于10000的次数


调取





df[里面是条件]
遍历每个字段,如果有缺失,则统计一波
然后照这个列,如果有null,就给他的values设定为True,把index弄出来,变tolist



收盘价
折现图
matplotlib
用seaborn-darkgrid画质
rc设置字体大小
fig出一个句柄画布

直接plot也行
你需要时间轴

俩都画
把数据整俩


hist





换手率
每行换手率
iloc行列


删除所有
非数字的行
for循环
定位i行13列
如果不是数字,做成列表
挨个去drop或者删除
labels=那个列表




收取平均
骚啊rolling




连着plot就是一个图



向后移动
向前移动








pandas和numpy经常混合使用
np.version
pd.version

搞一个np.random.randint(1,100,20)1–100,20个数据
然后搞一个dataframe


np.arrange(0,100,5)
这个是步长为5,固定的


正态分布也行

合并仨行
axis=0就是行
concat方法就是合并


往下拼接
我们看看axis=1列



牛逼
percentile(df,q=[0,25,75,100])%
本质是
精准
修改列名

输出看看

第一列中不在第二列
是否存在?

df[][这里输出真假]
控制
频率,统计,排序
values_count自然是降序呗

找位置
np.argwhere
df%5==0
整除

前后差
diff().to_list

顺序颠倒

拿数据take

每一行均值

第三列升序排序,整体要带动吗




2norm

单独列出别的呢



converter
转换





round直接取%

data直接0:2%前面对其,后面2个小数点


翻转行



CD字段也过来了
多列


左右是看key1,还是2
总结
提示:重要经验:
1)
2)学好oracle,即使经济寒冬,整个测开offer绝对不是问题!同时也是你考公网络警察的必经之路。
3)笔试求AC,可以不考虑空间复杂度,但是面试既要考虑时间复杂度最优,也要考虑空间复杂度最优。