自发购卡网站在吗做,自己可以建设一个网站要钱,网站seo优化推广教程,做亚马逊网站的账务处理一、BN层的操作 1.BN层的操作位置#xff1a;在非线性映射之前#xff0c;目的是为了减少梯度消失和梯度爆炸。 1.对输入的x做归一化 2.增加2个参数#xff0c;提高模型表达能力 3.理想情况下E和Var应该是针对整个数据集的#xff0c;但显然这是不现实的。因此#xff0c;… 一、BN层的操作 1.BN层的操作位置在非线性映射之前目的是为了减少梯度消失和梯度爆炸。 1.对输入的x做归一化 2.增加2个参数提高模型表达能力 3.理想情况下E和Var应该是针对整个数据集的但显然这是不现实的。因此作者做了简化用一个Batch的均值和方差作为对整个数据集均值和方差的估计。 二、作用 1.因为反向传播的时候梯度的连乘表达式中包含激活函数的导数BN使得激活函数的输入正规化从而导数落在比较好的位置减少梯度消失和梯度爆炸。 2.但是BN也引入了2次乘除法运算在求导时也会贡献乘除法运算也可能会导致梯度消失和爆炸。 3.由于参数初始化时一般是均值为0的。因此样本在均值为0时模型会训练得更快速。 如图刚开始的参数模型yWxb因为W和b是0均值初始化的就类似2条绿线样本是红色的点要经过多次训练模型参数才能变成紫色的线。若对数据点进行归一化则模型训练会加快。转载于:https://www.cnblogs.com/mimandehuanxue/p/8993968.html