Pytorch DataLoader 变长数据处理方式

时间：2021-05-22

关于Pytorch中怎么自定义Dataset数据集类、怎样使用DataLoader迭代加载数据，这篇官方文档已经说得很清楚了，这里就不在赘述。

现在的问题：有的时候，特别对于NLP任务来说，输入的数据可能不是定长的，比如多个句子的长度一般不会一致，这时候使用DataLoader加载数据时，不定长的句子会被胡乱切分，这肯定是不行的。

解决方法是重写DataLoader的collate_fn，具体方法如下：

# 假如每一个样本为：sample = { # 一个句子中各个词的id 'token_list' : [5, 2, 4, 1, 9, 8], # 结果y 'label' : 5,}# 重写collate_fn函数，其输入为一个batch的sample数据def collate_fn(batch): # 因为token_list是一个变长的数据，所以需要用一个list来装这个batch的token_list token_lists = [item['token_list'] for item in batch] # 每个label是一个int，我们把这个batch中的label也全取出来，重新组装 labels = [item['label'] for item in batch] # 把labels转换成Tensor labels = torch.Tensor(labels) return { 'token_list': token_lists, 'label': labels, }# 在使用DataLoader加载数据时，注意collate_fn参数传入的是重写的函数DataLoader(trainset, batch_size=4, shuffle=True, num_workers=4, collate_fn=collate_fn)

使用以上方法，可以保证DataLoader能Load出一个batch的数据，load出来的东西就是重写的collate_fn函数最后return出来的字典。

以上这篇Pytorch DataLoader 变长数据处理方式就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持。

声明：本页内容来源网络，仅供用户参考；我单位不保证亦不表示资料全面及准确无误，也不保证亦不表示这些资料为最新信息，如因任何原因，本网内容或者用户因倚赖本网内容造成任何损失或损害，我单位将不会负任何法律责任。如涉及版权问题，请提交至online#300.cn邮箱联系删除。

Pytorch DataLoader 变长数据处理方式

相关文章

python torch.utils.data.DataLoader使用方法

pytorch::Dataloader中的迭代器和生成器应用详解

详解PyTorch批训练及优化器比较

数据处理的中心环节是什么

数据处理的三种方法