怎样理解梯度下降(什么是梯度下降法与delta法则)

发布日期:2025-01-22 02:12:26     作者:默默守侯     手机:https://m.xinb2b.cn/life/fsi212245.html     违规举报

马克-to-win @ 马克java社区:防盗版实名手机尾号:73203在单变量的函数中,梯度可简单理解为只是导数。函数f的梯度方向是函数f的值增长最快的方向,最陡的方向。

马克-to-win @ 马克java社区:防盗版实名手机尾号:73203。梯度下降法就是沿梯度下降的方向求解函数(误差)极小值。delta法则是使用梯度下降法来找到最佳权向量。拿数字识别这个案例为例,训练模型的过程通常是这样的。输入为1万张图片,也就是1万个样本,我们定义为D,是训练样例集合,输出为相对应的1万个数字。马克-to-win @ 马克java社区:这就是1万个目标输出(Target),每一个目标输出我们定义为:td ,是训练样例d的目标输出。我们的模型训练的目的是想找出,此人工神经网络模型的参数,比如权向量w 等。要注意,目标输出td是已知的(非变量,比如5这张图,目标输出就是5这个数字),样本也是已知的。马克-to-win @ 马克java社区:参数是未知的。还有什么是未知的?这就需要从训练的过程入手了。训练过程,通常开始时,所有的权向量w都从一个很小的值开始,比如零, 这时有一个实际输出(od是对训练样例d的实际输出)。目标输出和实际输出的差距叫做误差。因为一共有1万个样本,为了消除正负误差相抵,所以我们定义所 有目标输出和实际输出的误差平方和的一半为E。(因为平方的求导会出现2,所以这就是取一半的原因,这样2×(1/2)会使系数消失。)


公式1-1在上式中:


拿 我们这章第一个例子,单个神经元的房子预测神经网络模型为例,不难理解:Od=x0*w0 x1*w1 …xn*wn b,结合前面的分析可知,x0, x1,。。。。。xn都是一个个的样本值, 是已知的。td也是已知的。这样看E是w0,w1,....wn和b的函数。我们的目标就是找到一组权向量(w0,w1,....wn和b)能使E最小 化。拿wi来说,我们可以画一条函数曲线:


马克-to-win @ 马克java社区:防盗版实名手机尾号:73203。公式1-2:之所以是负号, 是因为图中斜率肯定为负值(因为是与x轴正向的夹角)。根据数学中梯度下降法。(delta wi为正,E越来越小)所以我们有下面一个业内著名的式子:


公式1-2伊塔就是著名的学习率,代表纵向(E方向)的变化幅度。(keras optimizers 默认学习率是0.01)


式子中:td已知,xid已知,od是输出,是可以计算出来的代进公式1-3:


公式1-4公式1-4就是大名鼎鼎的delta rule(规则)以上的式子推导是根据批量学习。但理论和实践中,我们也用逐步学习法(也就是不用通过所有样本点的求和,简言之, 求和号直接省略)在前面上一段,我们提到:所有的权向量w都从一个很小的值开始,比如零,通过变化,最后让E达到最小。


公式1-5 拿我们这章第一个例子,单个神经元的房子预测神经网络模型为例,Od=x0*w0 x1*w1 …xi*wi .....xn*wn b来帮助理解以上的两个式子:公式1-4和公式1-5。根据此以上两个式子:我们的神经网络源代码自 己就能写出来。所有的权向量w都从一个很小的值开始,比如零。td,od, xid和伊塔的值都有,delta wi就能算出来。马克-to-win @ 马克java社区:新一轮wi就能求出来。接着再循环往复,直到最后计算出td和od一样,这时,delta wi就恒定为零了,Wi也就都求出来,这不就是我们训练的目的吗?全部到此就结束了,如果实在td和od的差距始终不能为0,那循环到一定轮数也就结束 了。篇幅有限更多请见扩展链接: http://www.mark-to-win.com/tutorial/mydb_ConvoluNeural_WhatIsGradientDelta.html

 
 
本文地址:https://xinb2b.cn/life/fsi212245.html,转载请注明出处。

推荐图文
推荐生活知识
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  违规举报  |  蜀ICP备18010318号-4  |  百度地图  | 
Processed in 0.151 second(s), 1 queries, Memory 0.59 M