时间:2021-05-23
环境: Python 3.5+, Pytorch 0.4.1/1.0.0
安装:
pip install pytorch-pretrained-bert--data_dir: "str": 数据根目录.目录下放着,train.xxx/dev.xxx/test.xxx三个数据文件.
--vocab_dir: "str": 词库文件地址.
--bert_model: "str": 存放着bert预训练好的模型. 需要是一个gz文件, 如"..x/xx/bert-base-chinese.tar.gz ", 里面包含一个bert_config.json和pytorch_model.bin文件.
--task_name: "str": 用来选择对应数据集的参数,如"cola",对应着数据集.
--output_dir: "str": 模型预测结果和模型参数存储目录.
导入所需包
import torchfrom pytorch_pretrained_bert import BertTokenizer, BertModel, BertForMaskedLM创建分词器
tokenizer = BertTokenizer.from_pretrained(--vocab_dir)需要参数: --vocab_dir, 数据样式见此
tokenize: 输入句子,根据--vocab_dir和贪心原则切词. 返回单词列表
convert_token_to_ids: 将切词后的列表转换为词库对应id列表.
convert_ids_to_tokens: 将id列表转换为单词列表.
text = '[CLS] 武松打老虎 [SEP] 你在哪 [SEP]'tokenized_text = tokenizer.tokenize(text)indexed_tokens = tokenizer.convert_tokens_to_ids(tokenized_text)segments_ids = [0, 0, 0, 0, 0, 0, 0,0,0,0, 1,1, 1, 1, 1, 1, 1, 1]tokens_tensor = torch.tensor([indexed_tokens])segments_tensors = torch.tensor([segments_ids])这里对标记符号的切词似乎有问题([cls]/[sep]), 而且中文bert是基于字级别编码的,因此切出来的都是一个一个汉字:
['[', 'cl', '##s', ']', '武', '松', '打', '老', '虎', '[', 'sep', ']', '你', '在', '哪', '[', 'sep', ']']创建bert模型并加载预训练模型:
model = BertModel.from_pretrained(--bert_model)放入GPU:
tokens_tensor = tokens_tensor.cuda()segments_tensors = segments_tensors.cuda()model.cuda()前向传播:
encoded_layers, pooled_output= model(tokens_tensor, segments_tensors)input_ids: (batch_size, sqe_len)代表输入实例的Tensor
token_type_ids=None: (batch_size, sqe_len)一个实例可以含有两个句子,这个相当于句子标记.
attention_mask=None: (batch_size*): 传入每个实例的长度,用于attention的mask.
output_all_encoded_layers=True: 控制是否输出所有encoder层的结果.
encoded_layer:长度为num_hidden_layers的(batch_size, sequence_length,hidden_size)的Tensor.列表
pooled_output: (batch_size, hidden_size), 最后一层encoder的第一个词[CLS]经过Linear层和激活函数Tanh()后的Tensor. 其代表了句子信息
补充:pytorch使用Bert
下载模型放到目录中
使用transformers中的BertModel,BertTokenizer来加载模型与分词器
使用tokenizer的encode和decode 函数分别编码与解码,注意参数add_special_tokens和skip_special_tokens
forward的输入是一个[batch_size, seq_length]的tensor,再需要注意的是attention_mask参数。
输出是一个tuple,tuple的第一个值是bert的最后一个transformer层的hidden_state,size是[batch_size, seq_length, hidden_size],也就是bert最后的输出,再用于下游的任务。
# -*- encoding: utf-8 -*-import warningswarnings.filterwarnings('ignore')from transformers import BertModel, BertTokenizer, BertConfigimport osfrom os.path import dirname, abspathroot_dir = dirname(dirname(dirname(abspath(__file__))))import torch# 把预训练的模型从官网下载下来放到目录中pretrained_path = os.path.join(root_dir, 'pretrained/bert_zh')# 从文件中加载bert模型model = BertModel.from_pretrained(pretrained_path)# 从bert目录中加载词典tokenizer = BertTokenizer.from_pretrained(pretrained_path)print(f'vocab size :{tokenizer.vocab_size}')# 把'[PAD]'编码print(tokenizer.encode('[PAD]'))print(tokenizer.encode('[SEP]'))# 把中文句子编码,默认加入了special tokens了,也就是句子开头加入了[CLS] 句子结尾加入了[SEP]ids = tokenizer.encode("我是中国人", add_special_tokens=True)# 从结果中看,101是[CLS]的id,而2769是"我"的id# [101, 2769, 3221, 704, 1744, 782, 102]print(ids)# 把ids解码为中文,默认是没有跳过特殊字符的print(tokenizer.decode([101, 2769, 3221, 704, 1744, 782, 102], skip_special_tokens=False))# print(model)inputs = torch.tensor(ids).unsqueeze(0)# forward,result是一个tuple,第一个tensor是最后的hidden-stateresult = model(torch.tensor(inputs))# [1, 5, 768]print(result[0].size())# [1, 768]print(result[1].size())for name, parameter in model.named_parameters(): # 打印每一层,及每一层的参数 print(name) # 每一层的参数默认都requires_grad=True的,参数是可以学习的 print(parameter.requires_grad) # 如果只想训练第11层transformer的参数的话: if '11' in name: parameter.requires_grad = True else: parameter.requires_grad = Falseprint([p.requires_grad for name, p in model.named_parameters()])其中101是[CLS],102是[SEP],0是[PAD]
>>> atensor([[101, 3, 4, 23, 11, 1, 102, 0, 0, 0]])>>> notpad = a!=0>>> notpadtensor([[ True, True, True, True, True, True, True, False, False, False]])>>> notcls = a!=101>>> notclstensor([[False, True, True, True, True, True, True, True, True, True]])>>> notsep = a!=102>>> notseptensor([[ True, True, True, True, True, True, False, True, True, True]])>>> mask = notpad & notcls & notsep>>> masktensor([[False, True, True, True, True, True, False, False, False, False]])>>>以上为个人经验,希望能给大家一个参考,也希望大家多多支持。如有错误或未考虑完全的地方,望不吝赐教。
声明:本页内容来源网络,仅供用户参考;我单位不保证亦不表示资料全面及准确无误,也不保证亦不表示这些资料为最新信息,如因任何原因,本网内容或者用户因倚赖本网内容造成任何损失或损害,我单位将不会负任何法律责任。如涉及版权问题,请提交至online#300.cn邮箱联系删除。
支付宝的钱怎么转到银行卡支付宝使用说明支付宝的钱怎么转到银行卡支付宝使用说明支付宝的钱怎么转到银行卡支付宝使用说明支付宝的钱怎么转到银行卡支付宝使用说明支付宝的
复制代码代码如下:/**函数名称:DateUtil*作者:yithcn*功能说明:日期函数*使用说明:*创建日期:2010.10.14*/varDateUtil
概述:@Valid是使用Hibernatevalidation的时候使用@Validated是只用SpringValidator校验机制使用说明:java的JS
券基本上都是能在促说apρ上领到的。不过每个优惠券都有使用说明的,登录你的购物账号,点击优惠券会显示你领到的所有优惠券,后边就有相应的使用说明,你点进去看一下就
大文件上传控件(包含进度条) 使用说明如下: 上传进度条控件 Web.config配置