时间:2021-05-22
前言
运用pandas 库对所得到的数据进行数据清洗,复习一下相关的知识。
1 数据清洗
1.1 处理缺失数据
对于数值型数据,分为缺失值(NAN)和非缺失值,对于缺失值的检测,可以通过Python中pandas库的Series类对象的isnull方法进行检测。
对于缺失值,除了np.nan来表示,还可以用None来表示缺失值
1.2 滤除掉缺失数据
1.2.1 对于Series
使用dropna方法将NAN的数据过滤掉。
另一种方法是使用布尔值索引对NAN数据进行过滤:
1.2.2 对于DataFrame
dropna()方法对于DataFrame的数据来说,会将含有NAN数据的行全部扔掉。
如果只想删除掉那些行中全部为NAN数据的DataFrame,通过设置dropna()方法中的参数how即可。
如果操作对象变为列,代码如下:
如果想留下其中的一部分数据,则可以设置thresh参数:
thresh = n,参数n相当于保留至少含有n个非NA的行
1.3 填充缺失数据
fillna(n),n替换掉NA
如果填充格式是字典,fillna({0:n1,1:n2}),将列0的NA填充为 n1,将列1的NA填充为 n2。
直接填充df的NA值,直接改变df,不需要命名新的变量。
2 数据转换
2.1 移除重复数据
返回的是每一行的重复结果,不重复是False,重复是True。
如果要去除重复的行,代码如下:
如果操作对象为列,在duplicated方法中指定参数即可。
返回的是 k1 列中重复的元素。
对于drop_duplicates()方法来说,去除掉的是重复数据的后者。比如说序号为0,1的数据重复,方法删除掉index = 1的行。如果想要删除前者,只需要指定参数 last即可:
2.2 与映射相结合
map函数的使用方法
2.3 替换
使用的是replace 方法,replace有两个参数,前者是被替换的数,后者是替换的数,参数格式可以是列表,也可以是字典
2.4 创建数据的修改版
rename方法可以创建数据的修改版,而不必在原数据上进行修改。
还可以使用字典的格式,对index, columns 进行改变。
这样的重命名并不对原数据进行修改,如果想要直接改变data, 如上,参数inplace = True即可。
这样就改变了data。
2.5 计算指标\哑变量
用于机器学习中,对定类数据的转化,用于将df中的object对象转化为One-hot编码,消除了数字间的比较大小问题。
如果想在分开的属性前面加上前缀的话,设定prefix 参数即可实现该功能,可以将其与原始数据合并在一起。
到此这篇关于详解Pandas 处理缺失值指令大全 的文章就介绍到这了,更多相关Pandas 处理缺失值内容请搜索以前的文章或继续浏览下面的相关文章希望大家以后多多支持!
声明:本页内容来源网络,仅供用户参考;我单位不保证亦不表示资料全面及准确无误,也不保证亦不表示这些资料为最新信息,如因任何原因,本网内容或者用户因倚赖本网内容造成任何损失或损害,我单位将不会负任何法律责任。如涉及版权问题,请提交至online#300.cn邮箱联系删除。
在实际应用中对于数据进行分析的时候,经常能看见缺失值,下面来介绍一下如何利用pandas来处理缺失值。常见的缺失值处理方式有,过滤、填充。一、缺失值的判断pan
Pandas使用这些函数处理缺失值:isnull和notnull:检测是否是空值,可用于df和seriesdropna:丢弃、删除缺失值axis:删除行还是列,
踩坑记录:用pandas来做csv的缺失值处理时候发现奇怪BUG,就是excel打开csv文件,明明有的格子没有任何东西,当然,我就想到用pandas的drop
01、缺失值处理人工填充(数据集小,缺失值少)使用样本数据的均值或中位数填充Python缺失值处理实例代码:b、填充替换缺失值--fillna如果缺失值不可以占
缺失值处理一般包括三步:1.识别缺失数据;2.检查导致数据缺失的原因;3.删除包含缺失值的实例或用合理的数值代替(插补)缺失值。1.判断缺失值函数is.na()