时间:2021-05-22
在深度学习中,迁移学习经常被使用,在大数据集上预训练的模型迁移到特定的任务,往往需要保持模型参数不变,而微调与任务相关的模型层。
本文主要介绍,使用tensorflow部分更新模型参数的方法。
1. 根据Variable scope剔除需要固定参数的变量
def get_variable_via_scope(scope_lst): vars = [] for sc in scope_lst: sc_variable = tf.get_collection(tf.GraphKeys.TRAINABLE_VARIABLES,scope=scope) vars.extend(sc_variable) return vars trainable_vars = tf.trainable_variables()no_change_scope = ['your_unchange_scope_name'] no_change_vars = get_variable_via_scope(no_change_scope) for v in no_change_vars: trainable_vars.remove(v) grads, _ = tf.gradients(loss, trainable_vars) optimizer = tf.train.AdamOptimizer(lr) train_op = optimizer.apply_gradient(zip(grads, trainable_vars), global_step=global_step)2. 使用tf.stop_gradient()函数
在建立Graph过程中使用该函数,非常简洁地避免了使用scope获取参数
3. 一个矩阵中部分行或列参数更新
如果一个矩阵,只有部分行或列需要更新参数,其它保持不变,该场景很常见,例如word embedding中,一些预定义的领域相关词保持不变(使用领域相关word embedding初始化),而另一些通用词变化。
import tensorflow as tfimport numpy as np def entry_stop_gradients(target, mask): mask_h = tf.abs(mask-1) return tf.stop_gradient(mask_h * target) + mask * target mask = np.array([1., 0, 1, 1, 0, 0, 1, 1, 0, 1])mask_h = np.abs(mask-1) emb = tf.constant(np.ones([10, 5])) matrix = entry_stop_gradients(emb, tf.expand_dims(mask,1)) parm = np.random.randn(5, 1)t_parm = tf.constant(parm) loss = tf.reduce_sum(tf.matmul(matrix, t_parm))grad1 = tf.gradients(loss, emb)grad2 = tf.gradients(loss, matrix)print matrixwith tf.Session() as sess: print sess.run(loss) print sess.run([grad1, grad2])以上这篇Tensorflow实现部分参数梯度更新操作就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持。
声明:本页内容来源网络,仅供用户参考;我单位不保证亦不表示资料全面及准确无误,也不保证亦不表示这些资料为最新信息,如因任何原因,本网内容或者用户因倚赖本网内容造成任何损失或损害,我单位将不会负任何法律责任。如涉及版权问题,请提交至online#300.cn邮箱联系删除。
方法一:手动计算变量的梯度,然后更新梯度importtorchfromtorch.autogradimportVariable#定义参数w1=Variable(
当我们再训练网络的时候可能希望保持一部分的网络参数不变,只对其中一部分的参数进行调整;或者值训练部分分支网络,并不让其梯度对主网络的梯度造成影响,这时候我们就需
首先说明代码只是帮助理解,并未写出梯度下降部分,默认参数已经被固定,不影响理解。代码主要实现RNN原理,只使用numpy库,不可用于GPU加速。importnu
更新tensorflow后,出现tensorboard不可用情况(tensorflow-cpu1.4->tensorflow-gpu1.7)尝试了更新tenso
使用TensorFlow的一个优势是,它可以维护操作状态和基于反向传播自动地更新模型变量。TensorFlow通过计算图来更新变量和最小化损失函数来反向传播误差