时间:2021-05-23
pd.cut
pandas.cut(x, bins, right=True, labels=None, retbins=False, precision=3, include_lowest=False)x:要分箱的输入数组,必须是一维的
bins:int或标量序列
若bins是一个int,它定义在x范围内的等宽单元的数量。然而,在这种情况下,x的范围在每一侧延伸0.1%以包括x的最小值或最大值
若bins是一个序列,它定义了允许非均匀bin宽度的bin边缘。在这种情况下不进行x的范围的扩展
right:bool,可选:决定区间的开闭,如果right == True(默认),则区间[1,2,3,4]指示(1,2],(2,3],(3,4]
labels:array或boolean,默认值为无:用作生成的区间的标签。必须与生成的区间的长度相同。如果为False,则只返回bin的整数指示符
retbins:bool,可选:是否返回bin。如果bin作为标量给出,则可能有用
precision:int:存储和显示容器标签的精度,默认保留三位小数
include_lowest:bool:第一个间隔是否应该包含左边
import numpy as npimport pandas as pd# 使用pandas的cut函数划分年龄组ages = [20,22,25,27,21,23,37,31,61,45,32]bins = [18,25,35,60,100]cats = pd.cut(ages,bins)print(cats) # 分类时,当数据不在区间中将变为nan# 统计落在各个区间的值数量print(pd.value_counts(cats))# 使用codes为年龄数据进行标号print(cats.codes)# 设置自己想要的面元名称group_names = ['Youth','YoungAdult','MiddleAged','Senior']print(pd.cut(ages, bins, labels=group_names))# 设置区间数学符号为左闭右开print(pd.cut(ages, bins, right=False))# 向cut传入面元的数量,则会根据数据的最小值和最大值计算等长面元print(pd.cut(ages, 4, precision=2)) # precision=2表示设置的精度pd.qcut
与cut类似,它可以根据样本分位数对数据进行面元划分
pandas.qcut(x, q, labels=None, retbins=False, precision=3)x:ndarray或Series
q:整数或分位数阵列分位数。十分位数为10,四分位数为4或者,分位数阵列,例如[0,.25,.5,.75,1.]四分位数
labels:array或boolean,默认值为无:用作生成的区间的标签。必须与生成的区间的长度相同。如果为False,则只返回bin的整数指示符。
retbins:bool,可选:是否返回bin。如果bin作为标量给出,则可能有用。
precision:int:存储和显示容器标签的精度
import numpy as npimport pandas as pd# qcut可以根据样本分位数对数据进行面元划分# data = np.random.randn(20) # 正态分布data = [1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20]cats = pd.qcut(data, 4) # 按四分位数进行切割print(cats)print(pd.value_counts(cats))print("-------------------------------------------------")# 通过指定分位数(0到1之间的数值,包含端点)进行面元划分cats_2 = pd.qcut(data, [0, 0.5, 0.8, 0.9, 1])print(cats_2)print(pd.value_counts(cats_2))以上这篇关于pandas的离散化,面元划分详解就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持。
声明:本页内容来源网络,仅供用户参考;我单位不保证亦不表示资料全面及准确无误,也不保证亦不表示这些资料为最新信息,如因任何原因,本网内容或者用户因倚赖本网内容造成任何损失或损害,我单位将不会负任何法律责任。如涉及版权问题,请提交至online#300.cn邮箱联系删除。
用途pandas.cut用来把一组数据分割成离散的区间。比如有一组年龄数据,可以使用pandas.cut将年龄数据分割成不同的年龄段并打上标签。原型pandas
Python实现连续数据的离散化处理主要基于两个函数,pandas.cut和pandas.qcut,前者根据指定分界点对连续数据进行分箱处理,后者则可以根据指定
这篇文章主要介绍了Pandas数据离散化原理及实例解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下为什么要
Pandas的apply函数概念(图解)实例1:怎样对数值按分组的归一化实例2:怎样取每个分组的TOPN数据到此这篇关于Pandas对每个分组应用apply函数
前言大家在使用Python进行数据分析时,经常要使用到的一个数据结构就是pandas的DataFrame,关于python中pandas.DataFrame的基