时间:2021-05-22
在Python里面,使用Pandas里面的DataFrame来存放数据的时候想要把数据集进行shuffle会许多的方法,本文介绍两种比较常用而且简单的方法。
应用情景:
我们有下面以个DataFrame
我们可以看到BuyInter的数值是按照0,-1,-1,2,2,2,3,3,3,3这样排列的,我们希望不保持这个次序,但是同时列属性又不能改变,即如下效果:
实现方法:
最简单的方法就是采用pandas中自带的 sample这个方法。
假设df是这个DataFrame
df.sample(frac=1)这样对可以对df进行shuffle。其中参数frac是要返回的比例,比如df中有10行数据,我只想返回其中的30%,那么frac=0.3。
有时候,我们可能需要打混后数据集的index(索引)还是按照正常的排序。我们只需要这样操作
df.sample(frac=1).reset_index(drop=True)-------------------------------------分割线--------------------------------------------------------------
其实,sklearn(机器学习的库)中也有shuffle的方法。
from sklearn.utils import shuffledf = shuffle(df)另外,numpy库中也有进行shuffle的方法(不建议)
df.iloc[np.random.permutation(len(df))]以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持。
声明:本页内容来源网络,仅供用户参考;我单位不保证亦不表示资料全面及准确无误,也不保证亦不表示这些资料为最新信息,如因任何原因,本网内容或者用户因倚赖本网内容造成任何损失或损害,我单位将不会负任何法律责任。如涉及版权问题,请提交至online#300.cn邮箱联系删除。
Python的random.shuffle()函数可以用来乱序序列,它是在序列的本身打乱,而不是新生成一个序列。示例:fromrandomimportshuff
今天踩过的两个小坑:一.用random的shuffle打乱数据集中的数据-标签对index=[iforiinrange(len(X_batch))]#print
1.作用dataset.shuffle作用是将数据进行打乱操作,传入参数为buffer_size,改参数为设置“打乱缓存区大小”,也就是说程序会维持一个buff
本文实例讲述了php使用str_shuffle()函数生成随机字符串的方法。分享给大家供大家参考,具体如下:str_shuffle():随机打乱字符串的顺序。可
模型的fit函数有两个参数,shuffle用于将数据打乱,validation_split用于在没有提供验证集的时候,按一定比例从训练集中取出一部分作为验证集这