时间:2021-05-22
对于python2.7
字符串在Python2.7内部的表示是unicode编码,因此,在做编码转换时,通常需要以unicode作为中间编码,即先将其他编码的字符串解码成unicode,再从unicode编码成另一种编码。
先用一些编辑器(如editplus )看一下你的txt文件保存的是utf-8,还是gb2312或其他的。当你读行时可以这样
line = (file1.readline()).decode('utf-8').encode('gb2312')或line = (file1.readline()).decode('gb2312').encode('utf-8')注意:txt使用utf8编码的时候会默认在文件开头插入三个不可见字符。这个是windows用来判断txt编码是否为utf8的。所以如果你直接使用decode('utf-8')的话是得不到正确结果的。
必须先判断前三个字符是否是windows插入的那三个。这个python已经定义了一个常量了,可以直接和这个常量比较,如果一样就删除前三个字符然后再decode。
import codecs data = open("Test.txt").read() if data[:3] == codecs.BOM_UTF8: data = data[3:] print data.decode("utf-8")延伸:
因为decode的函数原型是decode([encoding], [errors='strict']),可以用第二个参数控制错误处理的策略,默认的参数就是strict,代表遇到非法字符时抛出异常;
如果设置为ignore,则会忽略非法字符;
如果设置为replace,则会用?取代非法字符;
如果设置为xmlcharrefreplace,则使用XML的字符引用。
对于Python3
python3下比较简单,打开的时候指定encoding参数即可:open("txt.txt", encoding="gbk").read()。
以上这篇python读取中文txt文本的方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持。
声明:本页内容来源网络,仅供用户参考;我单位不保证亦不表示资料全面及准确无误,也不保证亦不表示这些资料为最新信息,如因任何原因,本网内容或者用户因倚赖本网内容造成任何损失或损害,我单位将不会负任何法律责任。如涉及版权问题,请提交至online#300.cn邮箱联系删除。
在做task中,需要将TXT文本中的某一项注释修改,但是python对txt文本只有写入和读取两种操作。我采用的方法是:1.读取txt文件,将每一行数据,加入新
NodeJs:文件读取API使用方法--readFile()需求:使用Node中提供的文件操作API,读取files目录下的1.txt文档中文本内容。Node的
java读取txt文本中如含有中文,可能会出现乱码,解决方案是:1.要统一编码,java工程的编码,txt文本编码,java工程中的java文本编码都统一为ut
python读取.txt(.log)文件、.xml文件、excel文件数据,并将数据类型转换为需要的类型,添加到list中详解1.读取文本文件数据(.txt结尾
实例一:读取txt文件中含有中文的字符importre##此处使用的编辑器是python3.xd="[\u4e00-\u9fa5]+"#中文匹配的符号f=ope