时间:2021-05-22
简介
这个模块处理python中常见类型数据和Python bytes之间转换。这可用于处理存储在文件或网络连接中的bytes数据以及其他来源。在python中没有专门处理字节的数据类型,建立字节型数据也比较麻烦,我们知道的bytes()函数也只能对无符号整型做处理,并且数据如下(没错,数字为多少就有多少个\x00,我们要是用这种方式来存储大量数据,结果可想而知):
va = bytes(1) # va: '\x00'vb = bytes(2) # vb: '\x00\x00'vc = bytes(5) # vc: '\x00\x00\x00\x00\x00'但在python中str类型中既可以用字符串表示也可以以字节方式表示,所以你定义一个字节型的字符串常量,python是能处理它的:
va = '\x26' # va: '&'
struct处理
字节顺序
一个数据有多个字节表示的时候,字节的顺序不同也就决定了值,在struct中有以下几种字节顺序:
字符 字节顺序 尺寸 对齐方式 @ 本机 本机 本机 = 本机 标准 无 < 小端 标准 无 > 大端 标准 无 ! 网络 标准 无对于字节顺序,只有大端和小端两种方式,只是比如你用@和=代表你用本机的字节顺序,!代表你使用网络的字节顺序。你不指定字节顺序则默认的是@。
本地字节顺序是大端或小端,取决于主机系统。例如,Intel x86和AMD64(x86-64)是小端的; 摩托罗拉68000和PowerPC G5是大端; ARM和Intel Itanium具有可切换的字节序(双字节序)。使用sys.byteorder来检查你的系统的字节顺序。
数据格式
struct支持的打包解包的数据格式如下,我们需要指定格式才能对应处理,其中对应尺寸已列出(以字节为单位):
字符 C类型 python类型 标准尺寸 x 填充字节 没有意义的值 c char 长度为1的字节 1 b signed char 整型 1 B unsigned char 整型 1 ? _Bool 布尔 1 h short 整型 2 H unsigned short 整型 2 i int 整型 4 I unsigned int 整型 4 l long 整型 4 L unsigned long 整型 4 q long long 整型 8 Q unsigned long long 整型 8 n ssize_t 整型 N size_t 整型 e 浮动 2 f float 浮动 4 d double 浮动 8 s char[] 字节 p char[] 字节 P void * 整型打包
通过struct的pack(fmt, *args)来实现对各种数据的打包(转换为对应字节数据),pack的需要传递的参数fmt就是数据的格式,包括了字节顺序、数据类型;后面的*args参数是需要打包的数据。
vaa = struct.pack('>I', 1255) # vaa: '\x00\x00\x04\xe7' 1*4=1个字节 vab = struct.pack('>II', 1255, 23) # vab: '\x00\x00\x04\xe7\x00\x00\x00\x17' 2*4=8个字节 vac = struct.pack('>2I?', 1255, 23, True) # vac: '\x00\x00\x04\xe7\x00\x00\x00\x17\x01' 2*4+1=9个字节
我们看上述三个使用例子(数据与数据之间没有填充,都是连续的,比如对于vac我们不知道 它是由两个4字节无符号整型和一个布尔构成,我们就无法取得正确的值),看fmt参数:
‘>I'代表了以大端的字节顺序打包一个4字节无符号整型数据,所以后面只跟了一个无符号整型参数1255;
‘>II'代表了以大端的字节顺序打包两个4字节无符号整型数据,所以后面跟了两个个无符号整型参数1255和23;
‘>2I?'代表了以大端的字节顺序打包两个4字节无符号整型和一个布尔型数据,所以后面跟了两个个无符号整型参数1255、23和一个布尔值True。
注意'2I'和'II','4I'和'IIII','2?'和'??'是一样的效果。
解包
通过struct的unpack(fmt, string)来实现对字符串的解包,fmt和打包的是完全一样的,如下(返回的结果是一个元组):
vaa = struct.pack('>I', 1255) # vaa: '\x00\x00\x04\xe7'vab = struct.pack('>II', 1255, 23) # vab: '\x00\x00\x04\xe7\x00\x00\x00\x17'vaaa = struct.unpack('>I', vaa) # vaaa: <class 'tuple'>: (1255, )vaba = struct.unpack('>II', vab) # vaba: <class 'tuple'>: (1255, 23)进阶使用
pack_into(fmt, buffer, offset, *args)
fmt参数和pack是一样的,buffer参数是可写的缓存区,offset是写入位置的偏移量,*args是需要写入的数据。这个有什么用呢,我们想想这样两个情况,我们有两个类型已经打包好,我们想在这两个已经打包好的数据后面再添加一个数据打包;或者我们要打包的数据很多,我们不可能在pack中把所有需要打包的数据都通过参数传递给pack,那你的pack函数可能得写成千上完个参数了。这时候我们就可以用到这个函数了。
要使用它必须要一个可以写入的缓存区,我们可以导入一个字符缓存区包,然后创建一个固定大小的缓存区(以字节为单位):
import structfrom ctypes import create_string_buffer# 创建一个9字节大小的缓存区,初始化默认全部为\x00 buf = create_string_buffer(9) # buf.raw: '\x00\x00\x00\x00\x00\x00\x00\x00\x00'# 冲缓存区buf的第0个字节开始打包两个4字节无符号整型数据1和2struct.pack_into(">II", buf, 0, 1, 2) # buf.raw: '\x00\x00\x00\x01\x00\x00\x00\x02\x00'# 然后我们想再打包一个布尔型数据到buf中就可以改变以下偏移量struct.pack_into(">?", buf, 8, True) # buf.raw: '\x00\x00\x00\x01\x00\x00\x00\x02\x01'unpack_from(fmt, buffer, offset)和calcsize(fmt)结合解包数据
calcsize用于计算格式字符串所对应的结果的长度,如:struct.calcsize(‘II'),返回8。因为两个无符号整型所占用的长度是8个字节。unpack_from(fmt, buffer, offset)用于从buffer缓存区中使用fmt格式从offset偏移量处开始解包fmt里对应数量的数据。
import structfrom ctypes import create_string_bufferbuf = create_string_buffer(9)struct.pack_into(">II", buf, 0, 1, 2)struct.pack_into(">?", buf, 8, True)# 记录位置pos = 0# 从buf缓存区中以大端方式从偏移位置pos处解包两个无符号整型数据返回,注意#返回值如果只写一个则返回一个元组,否则你解包几个数据就要写几个返回值。val = struct.unpack_from('>II', buf, pos) # val: <class 'tuple'>: (1, 2)val_a, val_b = struct.unpack_from('>II', buf, pos) # val_a: 1 val_b: 2# 重置解包位置pos += struct.calcsize('>II') # pos: 8val_c, = struct.unpack_from('>?', buf, pos) # val_c: True示例
这个示例是基于mnist手写数字识别的,我们刚开始有60000张手写数字的图片(.bmp格式的),我们通过下述代码将60000张图片转换成字节型数据,bytes.py代码如下:
import structimport osimport numpy as npfrom ctypes import create_string_bufferimport cv2# 创建一个60000 * 784 * 1 + 3 * 4字节大小的缓存区,初始化默认全部为\x00buffer = create_string_buffer(60000 * 784 * 1 + 3 * 4)def writeBytesData(): index = 0 BMP_NUM = 0 BMP_WIDTH = 28 BMP_HEIGHT = 28 # 先保留三个无符号整型的缓存区 index += struct.calcsize('>III') path = 'data/bmp' if not os.path.exists(path): print('No this dir!') return list = os.listdir(path) for line_bmp in list: bmp_path = os.path.join(path, line_bmp) if os.path.isdir(bmp_path): print('This is not a .bmp') else: BMP_NUM += 1 print(BMP_NUM) buf = cv2.imread(bmp_path, cv2.IMREAD_GRAYSCALE) buf = np.reshape(buf, [784]) for pos in range(buf.__len__()): struct.pack_into('>B', buffer, index, buf[pos]) index += struct.calcsize('>B') # 将保留缓存区的内容填上 struct.pack_into('>III', buffer, 0, BMP_NUM, BMP_WIDTH, BMP_HEIGHT) with open('data/bytes/bytes.bytes', 'wb') as fp: fp.write(buffer)def readFromBytes(): index = 0 images = [] with open('data/bytes/bytes.bytes', 'rb') as fp: buffer = fp.read() # 解包前三个无符号整型 bmp_num, bmp_width, bmp_height = struct.unpack_from('>III', buffer, index) # 重定位偏移量 index += struct.calcsize('>III') for pos in range(bmp_num): img = struct.unpack_from('>784B', buffer, index) index += struct.calcsize('>784B') # 修改为原来的图片形状 img = np.array(img, dtype=np.uint8) img = np.reshape(img, [bmp_height, bmp_width]) # 显示图片 cv2.imshow('bmp', img) # 按任意键继续 cv2.waitKey(0) images.append(img) return imageswriteBytesData()readFromBytes()在写入bytes文件的时候有点慢,由于有60000张图片每张要写28 * 28个字节,其中目录结构如下,需要图片的可以去我的下载区下载mnist图片数据集:
bytes.pydata bmp 1.bmp 2.bmp ... 60000.bmp bytes以上这篇python中struct模块之字节型数据的处理方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持。
声明:本页内容来源网络,仅供用户参考;我单位不保证亦不表示资料全面及准确无误,也不保证亦不表示这些资料为最新信息,如因任何原因,本网内容或者用户因倚赖本网内容造成任何损失或损害,我单位将不会负任何法律责任。如涉及版权问题,请提交至online#300.cn邮箱联系删除。
python提供了一个struct模块来提供转换。下面就介绍这个模块中的几个方法。struct.pack():struct.pack用于将Python的值根据格
有的时候需要用python处理二进制数据,比如,存取文件,socket操作时.这时候,可以使用python的struct模块来完成.可以用struct来处理c语
准确地讲,Python没有专门处理字节的数据类型。但由于str既是字符串,又可以表示字节,所以,字节数组=str。而在C语言中,我们可以很方便地用struct、
定义:把模块定义成二进制语言程序的这个过程叫做字节编译python是解释型语言,它的字节编译是由解释器完成的编译py文件,生成pyc结尾的文件的方法,方法一:I
Python使用struct处理二进制的实例详解有的时候需要用python处理二进制数据,比如,存取文件,socket操作时.这时候,可以使用python的st