时间:2021-05-22
记录一些pandas选择数据的内容,此前首先说行列名的获取和更改,以方便获取数据。此文作为学习巩固。
这篇博的内容顺序大概就是: 行列名的获取 —> 行列名的更改 —> 数据选择
一、pandas的行列名获取和更改
1. 获取: df.index() df.columns()
首先,举个例子,做一个DataFrame如下:
>>>import pandas as pd>>>import numpy as np>>>data = pd.DataFrame({'a':[1,2,3],'b':[4,5,6],'c':[7,8,9]})>>>data设置了列索引为 abc,行索引是自动生成的,也可以设置
>>>data.index = ['A','B','C']>>>data以下的做法都以这个 data 作为数据举例
接下来就可以获取索引了,index-行索引,columns-列索引
>>>data.index>>>data.columns2. 修改,看到有很多方法,这里推荐一种比较灵活好用的方法
df.rename(index={ }, columns={ }, inplace=True)>>>data.rename(index={'A':'D', 'B':'E', 'C':'F'}, columns={'a':'d', 'b':'e', 'c':'f'}, inplace = True)>>>data说明3点:
1. index和columns无关,可以分别指定,也就是说,可以只修改行索引,那么rename()中只写index
2. 索引可以任意挑选,如此处,index={'A':'D', 'C':'F'} 则只改A和C,columns同样
3. inplace=True, 在原dataframe上改动
二、pandas的数据选择
1. 直接用索引选(不灵活、不推荐) df[ ]
1) 选择‘a'列
>>>data['a']注意:
1. 这样取出的数据类型为 Series
2. 这种方法只能取出一列,不能用数字下标,不能多选或片选, data['a','b'] , data['a':'c'] , data[0]
2)选择'A','B'行
>>>data['A':'B'] >>>data[0:2] # 两种方法同一结果注意:
1. 这样取出的数据类型为 DateFrame
2. 这种方法只能用于片选行,可以用数字下标,不能单独取,即 data['A'] , data['A','B'] , data[1]
2.使用 .loc(推荐) df.loc(),()内参数先行后列,区别行列的取法
1) 取列:
>>>data.loc[:,['a','c']] #图1 需要行全取,再对应指定列2)取行:
>>>data.loc[['A','B']] #图2 直接指定行3)取行列交叉值:
>>>data.loc[['A'],['b','c']] #图3注意:
1. 区别 df.iloc()
.loc() —— 使用标签 label 作为索引取值
.iloc() —— 使用整数下标 index 作为索引取值,如上面三句可以换成以下三句,输出数据类型有不同
>>>data.iloc[:,[0,2]] # DataFrame>>>data.iloc[[0,1]] # DataFrame>>>data.iloc[0,[1,2]] # Series2. 对于 数字类型的变量,可以使用bool 选取行,列不能用bool,如
>>>data.loc[data.b>5] # DataFrame>>>data.loc[data.b>5,['c']] #DataFrame 输出为9位置的frame>>>data.iloc[data.b.values>5,[2]] #DataFrame 输出同上,需要有 .values取值3. .ix[ ] 可以混用label和index,位置使用同 .loc[ ] .iloc[ ]
以上这篇对pandas的行列名更改与数据选择详解就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持。
声明:本页内容来源网络,仅供用户参考;我单位不保证亦不表示资料全面及准确无误,也不保证亦不表示这些资料为最新信息,如因任何原因,本网内容或者用户因倚赖本网内容造成任何损失或损害,我单位将不会负任何法律责任。如涉及版权问题,请提交至online#300.cn邮箱联系删除。
前言本文介绍在pandas中如何读取数据行列的方法。数据由行和列组成,在数据库中,一般行被称作记录(record),列被称作字段(field)。回顾一下我们对记
本文研究的主要是Python编程通过pandas将数据分割成时间跨度相等的数据块的相关内容,具体如下。先上数据,有如下dataframe格式的数据,列名分别为d
从wind上面搞到一批股票数据后发现:本来是一个类型的数据,但是由于季度不同,列名也不同,导致使用pandas合并多个报表的时候总是出现一大堆NaN,所以这里我
pandas中一个很便捷的使用方法通过loc、iloc、ix等索引方式,这里记录一下:df.loc[条件,新增列]=赋初始值如果新增列名为已有列名,则在原来的数
列名用了中文的缘故,设置pandas的参数即可,代码如下:importpandasaspd#这两个参数的默认设置都是Falsepd.set_option('di