pandas学习笔记
在数学建模中我常常使用pandas和numpy这两个库进行数据的处理
接下来我会列举pandas库的常用操作
导入pandas库
1 | import pandas as pd |
1.导入数据
常用的导入数据函数有
- pd.read_excel(“File Name”,”Sheet Name”,”Header”)
- pd.read_csv(“File Name”,”Header”)
返回值均为DataFrame
举例
1 | df = pd.read_excel("./static/test.excel",sheet_name="工作表1",header=1) |
1 | df = pd.read_csv("./static/test.csv",header=1) |
2.数据缺失值的处理
一般来说数据并不是完美的,会有一定的缺失
我们分为两步走处理数据的缺失
- 找出缺失值
- 填补缺失值
找出缺失值
对于一个Data Frame(以下简称df)
head()和tail()
在第一次读取文件的时候可能会读取到无效的单元格(数据)
我们可以使用
- head(number)
- tail(number)
number为读取的行数
- head(7)意为从开头开始向下读取7行
- tail(7)意为从结尾开始向上读取7行
如果没有提供number,那么默认number=5
举例
可以看出最后两行数据是无效的
我们可以使用
1 | DE = DE.iloc[:-2,:].copy() |
下面简单说明iloc
iloc[num1:num2,num3:num4]
- i$\rightarrow$index [索引]
- loc$\rightarrow$locate [定位]
- num1 和 num2对应到行
- num3 和 num4对应到列
举例
num1:num2意为取索引为num1到num2 - 1的所有行(num2不会被取到)
列也是同理
num如果不给就是取一个范围
info()和types()
可以调用info(),types()去查看各列的类型
举例
1 |
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 蒲公英!