时间:2021-05-22
今天项目中遇到了中文编码的zip文件,处理了蛮长时间,所以记录下,以免下次踩坑。
Python2下
Python2中读取zip文件,zipfile.ZipInfo的filename类型是str,基本上类似于python3中的bytes,即可以被decode为unicode。
所以,要处理中文,只需要将文件名按照编码decode成unicode就好。
import zipfilefpath = '/path/to/zip.zip'zfile = zipfile.ZipFile(fpath, 'r')for fileinfo in zfile.filelist: print fileinfo.filename.decode('gb18030') # 如果要更加详细的区分bytes/str/unicode的语义 print bytes(fileinfo.filename).decode('gb18030')Python3下
Python3中,Language encoding flag (EFS)如果是1,则按照utf8来处理文件编码,EFS如果为0,则直接按照cp437解码文件名。这是标准直接规定的。
但是,很多软件在制作zip压缩包的时候,直接使用gb18030或者其他非标准编码格式来编码文件名,所以我们还得将文件名反转为bytes,然后再使用对应的编码方式解码:
fpath = '/path/to/zip.zip'zfile = zipfile.ZipFile(fpath, 'r')for fileinfo in zfile.filelist: print(fileinfo.filename.encode('cp437').decode('gb18030'))方法都有了,那直接根据文件名智能猜测文件编码,然后解压就好。但是由于单个文件名太短,chardet的猜测可能不准,所以我们可以直接将所有的文件名连接起来,猜测编码。
代码请参考 mczip ,兼容python2和python3。
总结
以上所述是小编给大家介绍的Python 2/3下处理cjk编码的zip文件的方法,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对网站的支持!
如果你觉得本文对你有帮助,欢迎转载,烦请注明出处,谢谢!
声明:本页内容来源网络,仅供用户参考;我单位不保证亦不表示资料全面及准确无误,也不保证亦不表示这些资料为最新信息,如因任何原因,本网内容或者用户因倚赖本网内容造成任何损失或损害,我单位将不会负任何法律责任。如涉及版权问题,请提交至online#300.cn邮箱联系删除。
手机怎么解压zip文件手机解压文件方法手机怎么解压zip文件手机解压文件方法 2、启动解压软件ZArchiver后找到需要解压的zip文件; 3、选择解压的
python3读取python2打包的npy文件会报错,原因是编码方式不同,所以只要在读取的时候加上编码方式即可。解决方法docs_train=np.load(
导出ppt里的音乐的方法是: 1、找到需要的PPT。 2、PPT格式更改zip。 3、解压zip。 4、打开解压后的zip文件夹找到名为PPT文件。
python解释器默认编码(python2与python3的区别一)python2解释器默认编码:asciipython3解释器默认编码:utf-8输入(pyt
一篇关于STR和UNICODE的好文章整理下python编码相关的内容注意:以下讨论为Python2.x版本,Py3k的待尝试开始用python处理中文时,读取