时间:2021-05-22
我就废话不多说了,大家还是直接看代码吧!
# encoding=utf-8import numpy as npimport pandas as pd# 长宽格式的转换# 1data = pd.read_csv('d:data/macrodata.csv')print 'data:=\n', dataprint 'data.to_records():=\n', data.to_records()print 'data.year:=\n', data.yearprint 'data.quarter:=\n', data.quarterperiods = pd.PeriodIndex(year=data.year, quarter=data.quarter, name='date')print 'periods:=\n', periodsdata = pd.DataFrame(data.to_records(), columns=pd.Index(['realgdp', 'infl', 'unemp'], name='item'), index=periods.to_timestamp('D', 'end'))print 'data:=\n', dataldata = data.stack().reset_index().rename(columns={0: 'value'})# print 'ldata:=\n', ldataprint 'ldata.get(\'realgdp\'):=\n', ldata.get('realgdp')print 'ldata.get(\'unemp\'):=\n', ldata.get('unemp')wdata = ldata.pivot('date', 'item', 'value')print 'ldata:=\n', ldataprint 'wdata:=\n', wdata# 2print 'ldata[:10]:=\n', ldata[:10]pivoted = ldata.pivot('date', 'item', 'value')print 'pivoted:=\n', pivotedprint 'pivoted.head():=\n', pivoted.head()print 'ldata:=\n', ldataldata['value2'] = np.random.randn(len(ldata))print 'ldata[\'value2\']:=\n', ldata['value2']print 'ldata[:10]:=\n', ldata[:10]pivoted = ldata.pivot('date', 'item')print 'pivoted:=\n', pivotedprint pivoted[:5]print 'pivoted[\'value\'][:5]:=\n', pivoted['value'][:5]print 'ldata:=\n', ldataunstacked = ldata.set_index(['date', 'item']).unstack('item')print 'unstacked:=\n', unstackedprint 'test'补充知识:python使用_pandas_用stack和unstack进行行列重塑(key-value变宽表)
数据结构的重塑(reshape)
与数据库交互时常遇到堆叠格式(key-value)和宽表形式(dataframe)的转换,如:
堆叠格式:
宽表形式dataframe:
下面是相互转换的示例代码:
import pandas as pdimport numpy as np # 常用的表格形式的数据结构df = pd.DataFrame(np.arange(6).reshape((2,3)), index=['id1','id2'], columns=['attr1','attr2','attr3'])print(df)out: attr1 attr2 attr3id1 0 1 2id2 3 4 5 # 宽表形式(dataframe)转变为堆叠形式(key-value)形式# 数据库中常以该形式存储df_key_value = df.stack().reset_index()df_key_value.columns = ['id', 'attr', 'value']print(df_key_value)out:id attr value0 id1 attr1 01 id1 attr2 12 id1 attr3 23 id2 attr1 34 id2 attr2 45 id2 attr3 5 # 堆叠转换为宽表形式 # 用set_index创建层次化索引,在用unstack重塑# unstack中作为旋转轴的变量(如attr),其值会作为列变量展开df_key_value.set_index(['id','attr']).unstack('attr')out:valueattr attr1 attr2 attr3id id1 0 1 2id2 3 4 5 # 多层索引转化为宽表df_long = df_key_value.set_index(['id','attr']).unstack('attr')['value'].reset_index()df_longout:attr id attr1 attr2 attr30 id1 0 1 21 id2 3 4 5 # 堆叠转换为宽表的快捷键---pivotdf_key_value.pivot('id','attr','value')out:attr attr1 attr2 attr3id id1 0 1 2id2 3 4 5以上这篇python 数据分析实现长宽格式的转换就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持。
声明:本页内容来源网络,仅供用户参考;我单位不保证亦不表示资料全面及准确无误,也不保证亦不表示这些资料为最新信息,如因任何原因,本网内容或者用户因倚赖本网内容造成任何损失或损害,我单位将不会负任何法律责任。如涉及版权问题,请提交至online#300.cn邮箱联系删除。
前言在使用Python进行数据分析时,经常会遇到时间日期格式处理和转换,特别是分析和挖掘与时间相关的数据,比如量化交易就是从历史数据中寻找股价的变化规律。Pyt
在实际数据分析过程中,我们分析用Python来处理数据(海量的数据),我们都是把这个数据转换为Python的对象的,比如最为常见的字典。比如现在有几十万份数据(
最近在学习关于Python数据分析与挖掘方面的知识,在学习到Python数据分析工具方面时,需要安装一些第三方扩展库来增强Python的数据分析能力,刚开始我就
关于Python数据分析在数学建模中的更多相关应用:Python数据分析在数学建模中的应用汇总(持续更新中!)(1)、导入库importmatplotlib.p
1、python大量的库为数据分析提供了完整的工具集2、比起MATLAB、R语言等其他主要用于数据分析语言,python语言功能更加健全3、python库一直在