使用pandas忽略行列索引,纵向拼接多个dataframe

时间:2021-05-22

从wind上面搞到一批股票数据后发现:本来是一个类型的数据,但是由于季度不同,列名也不同,导致使用pandas合并多个报表的时候总是出现一大堆NaN,所以这里我写了一个函数,专门针对这样的表

它的思路是:

生成一堆单词,然后把这些表的列索引全部替换为这些单词,然后调用 pd.concat() 把这些dataframe全部合并后再把列索引改回来,当然,这里也可以手动指定列索引。

使用方法见代码的最后一行,传入一个dataframe的list就可以了。

import pandas as pdfrom random import Random # 随机生成一堆单词作为公共的列名def random_list(random_str_count, randomlengtd=6): result_list = [] random = Random() chars = "qwertyuiopasdfghjklzxcvbnm" for str_count in range(random_str_count): ranstr = "" lengtd = len(chars) - 1 for str_lengtd in range(randomlengtd): ranstr += chars[random.randint(0, lengtd)] result_list.append(ranstr) return result_list def combine_as_data_location(pd_list, columns=''): if not pd_list: return None old_columns = pd_list[0].columns if columns: new_columns = columns else: new_columns = random_list(pd_list[0].shape[1]) for data_df in pd_list: # data is pandas Dataframe data_df.columns = new_columns result_df = pd.concat(pd_list, ignore_index=True) if columns: return result_df else: result_df.columns = old_columns return result_df result_df = combine_as_data_location([df1,df2,df3])

补充:pandas.concat实现竖着拼接、横着拼接DataFrame

1、concat竖着拼接(默认的竖着,axis=0)

话不多说,直接看例子:

import pandas as pddf1=pd.DataFrame([10,12,13])df2=pd.DataFrame([22,33,44,55])df3=pd.DataFrame([90,94])

df1

0 0 10 1 12 2 13

df2

0 0 22 1 33 2 44 3 55

df3

0 0 90 1 94 res= pd.concat([df1,df2,df3])res 0 0 10 1 12 2 13 0 22 1 33 2 44 3 55 0 90 1 94

如果要生成新索引,忽略原来索引怎么办?

默认有个参数ignore_index= False,将其值改为True:

res2= pd.concat([df1,df2,df3], ignore_index=True)res2 0 0 10 1 12 2 13 3 22 4 33 5 44 6 55 7 90 8 94

2、concat横着拼接

用参数axis= 1,看例子:

res_heng= pd.concat([df1,df2,df3], axis=1)res_heng 0 0 0 0 10.0 22 90.0 1 12.0 33 94.0 2 13.0 44 NaN 3 NaN 55 NaN

以上为个人经验,希望能给大家一个参考,也希望大家多多支持。如有错误或未考虑完全的地方,望不吝赐教。

声明:本页内容来源网络,仅供用户参考;我单位不保证亦不表示资料全面及准确无误,也不保证亦不表示这些资料为最新信息,如因任何原因,本网内容或者用户因倚赖本网内容造成任何损失或损害,我单位将不会负任何法律责任。如涉及版权问题,请提交至online#300.cn邮箱联系删除。

相关文章