29.09万7071
知识服务
1.55万
加关注
relu函数,-x处接近于x轴,正处为45度直线,导数恒为1,解决梯度消失问题。 提高学习速率弥补梯度过小,动态改变学习率 rnn容易出现梯度问题,因为循环累乘多,容易让导数累乘越来越小或越来越大。比深度学习网络更严重。 梯度剪切,设置一个阈值,梯度超过阈值就强制限制在范围内 权重正则化,对权重设置正则限制,梯度爆炸后会让权重的范数变的很大。 合理的初始化权重,设置高斯分布的初始化初值,减少对称性问题。
每天学习5分钟
每天1分钟·学习ERP
每天五分钟学习《论语》
易经|每天学习5分钟
每天10分钟学习历史常识
relu函数,-x处接近于x轴,正处为45度直线,导数恒为1,解决梯度消失问题。 提高学习速率弥补梯度过小,动态改变学习率 rnn容易出现梯度问题,因为循环累乘多,容易让导数累乘越来越小或越来越大。比深度学习网络更严重。 梯度剪切,设置一个阈值,梯度超过阈值就强制限制在范围内 权重正则化,对权重设置正则限制,梯度爆炸后会让权重的范数变的很大。 合理的初始化权重,设置高斯分布的初始化初值,减少对称性问题。