时间:2021-05-22
python对excel表格处理的一些小功能 功能概览pandas库的一些应用文件读入计算表格中每一行的英文单词数简单用textblob进行自然语言情感分析判断一行中是不是有两列值都与其他行重复(可推广至多列)对表格中的两列自定义函数运算判断表格中某列中是否有空对表格某列中时间格式的修正运用matplotlib画时间序列图,重叠图
做数模模拟赛时学到的一些对表格处理的知识,为了方便自己以后查找,遂写成一篇文章,也希望能帮助大家:)
文件读入
代码如下,每一句后面都有注释!
包括知识点:
1.excel文件的写入和输出;
2.检验表格中是否有NaN,有即删除一行;
3.把表格某列中所有某字母替换成另一字母,所有某数字替换成另一数字;
4.检验表格某列中每一格是Y还是N,是Y就在新列中对应输出1,反之则为0;
5.对表格中多列进行运算
(首先要配置pandas库,如果需要读取和写入文件,要配置xlsxwriter库)
计算表格中每一行的英文单词数
包含知识点:
1.dataframe和字典、列表的转换;
2.如何遍历字典;
3.计算dataframe中每一列的英文句子中的单词数
简单用textblob进行自然语言情感分析
用NLP简单分析表格中每一格的英文句子的情感极性和主观性
import pandas as pdfrom textblob import TextBlobimport xlsxwriter word=pd.read_excel('C:/math/Problem_C_Data/reviewh.xlsx')c=[]word=word.set_index(word.index).T.to_dict('list')for key,value in word.items(): s=str(value) blob = TextBlob(s) #把s转化成textblob对象 blob = blob.sentences #利用TextBlob句子标记化句子 first = blob[0].sentiment #对标记化后的句子进行情感分析(我这里只有一个句子,如果有很多句就添加second=blob[1].sentiment) c.append(first.polarity) #这里只添加了情感极性,如果还需要主观性,就直接用firstc=pd.DataFrame(c)c.to_excel('C:/math/Problem_C_Data/NLPh.xlsx',engine='xlsxwriter')print('finished')判断一行中是不是有两列值都与其他行重复(可推广至多列)
判断表中是不是有在同一行中a列和b列值都相同的情况。如第一行中a=1,b=2,第4行中a=1,b=2,则这两行相同;如果第8行中a=1,b=3,则它和第一行不重复
import pandas as pdimport xlsxwriterword=pd.read_excel('C:/math/Problem_C_Data/my_hair_dryer.xlsx')x=word['a'] y=word['b']z=pd.concat([x,y],axis=1)#对axis=1即把两列按行对齐,即左右拼接成一张表 z['repeat']=z.duplicated() #判断表中有没有重复的,如果有则输出为truell = z['repeat'].values.tolist() #把这一列转变成列表 if 'True' in ll: #遍历列表,如果里面有true,就说明有重复,就输出yes print('yes')print('finished')对表格中的两列自定义函数运算
(此处定义的是除法运算)
import pandas as pdimport xlsxwriter word=pd.read_excel('C:/math/Problem_C_Data/my_hair_dryer.xlsx')def chu(x,y): if y==0: #分母为0,则不运算,结果直接为0 result=0 else: result=x/y return results = word.apply(lambda word:chu(word['helpful_votes'],word['total_votes']), axis=1)s.to_excel('C:/math/Problem_C_Data/voteh.xlsx',engine='xlsxwriter')print('finished')判断表格中某列中是否有空
import numpy as npimport pandas as pdimport xlsxwriter word=pd.read_excel('C:/math/Problem_C_Data/my_hair_dryer.xlsx')train=word['review_date']print(train.isnull().any()) #有空即输出true对表格某列中时间格式的修正
原格式是月/日/年,如1/11/2014,改为标准datetime格式2014-01-11(此处还要舍去后面的00:00:00),方便之后画图,也方便排序等
import pandas as pdimport datetime #引入库#导入数据集data =pd.read_excel('C:/math/Problem_C_Data/Exx.xlsx')data = data.loc[:, ['review_date']] # 获取数据集中列名为review_date#s= pd.to_datetime(data['review_date'], format='%m/%d/%Y')# 标准化日期,获取时间的“年、月、日”def change_date(s): s = datetime.datetime.strptime(s, "%m/%d/%Y") #这里是原格式的形式,俺是月/日/年,可根据实际情况修改 # 把日期标准化,如把1/11/2014变成2014-01-011 00:00:00 s = str(s) # 上一步把date转化为了时间格式,此处把date转回str格式 return s[:10] #只获取年月日的方法,即“位置10”之前的字符串 #字符串的切片data['review_date'] = data['review_date'].map(change_date) # 用change_date函数处理列表中date这一列,如把“1/11/2014”转化为“2014-01-11”#data = data.sort_values(by='review_date') # 按date这一列进行排序,根据需要采用data.to_excel('C:/math/Problem_C_Data/Exxx.xlsx',engine='xlsxwriter')print('finished')运用matplotlib画时间序列图,重叠图
画时间序列图
(如果要画重叠图,记得x要一样,y可以不一样,然后用plt.plot(x,y0,x,y1,x,y2)即可画出重叠图)
到此这篇关于使用python对excel表格处理的一些小功能的文章就介绍到这了,更多相关python对excel表格处理内容请搜索以前的文章或继续浏览下面的相关文章希望大家以后多多支持!
声明:本页内容来源网络,仅供用户参考;我单位不保证亦不表示资料全面及准确无误,也不保证亦不表示这些资料为最新信息,如因任何原因,本网内容或者用户因倚赖本网内容造成任何损失或损害,我单位将不会负任何法律责任。如涉及版权问题,请提交至online#300.cn邮箱联系删除。
在使用电子表格处理数据时经常会处理一些小数,那么如何快速录入小数呢?现在就自己的使用经历跟大家交流一番,希望对你有所帮助和启发。软件名称:Excel2003绿色
excel表格,给我们的办公带来了很大的便利。在熟练掌握基本操作的前提下,一些小技巧,可以大大提高工作效率。今天我就来说说怎么使用excel表格的筛选功能,下面
各位坛友可能在使用WPSOffice的过程中,发现了一些WPS帮助文档中不曾提到的小功能,这些小功能可能对提高办公效率很有作用,也希望和大家一起分享。所以这里特
微表格是基于OfficeExcel而开发的一款excel表格数据处理软件,无需安装excel,可独立运行,几乎完美移植了Excel的所有功能,但舍弃了一些冗余的
最近做了一项工作需要把处理的数据写入到Excel表格中进行保存,所以在此就简单介绍使用Python如何把数据保存到excel表格中。数据导入之前需要安装xlwt