登录 | 注册

指数加权平均、动量梯度下降法、RMSprop、Adam优化算法

博客小编 (134) 2024-05-16 21:01:01

目录

1.指数加权平均(exponentially weighted averages)

这里有一年的温度数据。

指数加权平均、动量梯度下降法、RMSprop、Adam优化算法 (https://mushiming.com/) 第1张

如果想计算温度的趋势，也就是局部平均值(local average)，或者说移动平均值(moving average)，怎么做？

指数加权平均、动量梯度下降法、RMSprop、Adam优化算法 (https://mushiming.com/) 第2张

指数加权平均、动量梯度下降法、RMSprop、Adam优化算法 (https://mushiming.com/) 第3张：当天的温度，：从当天开始计算前天的平均温度，：从昨天开始计算前天的平均温度。

比如，β=0.9，计算的就是前10天的平均温度，如下图红线所示。β=0.98，计算的就是前50天的平均温度，如下图绿线所示。

指数加权平均、动量梯度下降法、RMSprop、Adam优化算法 (https://mushiming.com/) 第8张

为什么是 指数加权平均、动量梯度下降法、RMSprop、Adam优化算法 (https://mushiming.com/) 第5张天？

指数加权平均、动量梯度下降法、RMSprop、Adam优化算法 (https://mushiming.com/) 第10张，，...

指数加权平均、动量梯度下降法、RMSprop、Adam优化算法 (https://mushiming.com/) 第13张 ...

这些项的系数呈指数级减少

指数加权平均、动量梯度下降法、RMSprop、Adam优化算法 (https://mushiming.com/) 第15张 0.37，

当β->1，选定指数加权平均、动量梯度下降法、RMSprop、Adam优化算法 (https://mushiming.com/) 第5张为分界线，从开始，以后的项都可忽略不计，(1-β)=。

例：β=0.9，10为分界线，指数加权平均、动量梯度下降法、RMSprop、Adam优化算法 (https://mushiming.com/) 第20张 (1-0.9)0.90....+0....。

β=0.98，50为分界线，指数加权平均、动量梯度下降法、RMSprop、Adam优化算法 (https://mushiming.com/) 第20张 (1-0.98)0.0....+0....。

偏差修正(Bias correction)

β=0.98，如果没有进行偏差修正，得到的其实是下图的紫线。

指数加权平均、动量梯度下降法、RMSprop、Adam优化算法 (https://mushiming.com/) 第34张

指数加权平均、动量梯度下降法、RMSprop、Adam优化算法 (https://mushiming.com/) 第35张，0.02，=0.98x0.02+0.02

指数加权平均、动量梯度下降法、RMSprop、Adam优化算法 (https://mushiming.com/) 第37张 =5，，算局部平均值的时候，不太合理，偏小。

所以，在估测初期要进行一个修正，公式：指数加权平均、动量梯度下降法、RMSprop、Adam优化算法 (https://mushiming.com/) 第43张

例：t=2，指数加权平均、动量梯度下降法、RMSprop、Adam优化算法 (https://mushiming.com/) 第38张要修正为，β=0.98

当t越来越大的时候，指数加权平均、动量梯度下降法、RMSprop、Adam优化算法 (https://mushiming.com/) 第43张就近似等于，上图的紫线就和绿线重合了，修正偏差的作用也就不大了。

所以，如果你关心初始时期的偏差，偏差修正能让你在早期获得更好的估测。不在乎早期的偏差，不做修正也问题不大。

指数加权平均优点是只会占很少的内存，计算的时候只需要一行代码，需要知道的信息很少。计算精度肯定不如直接计算前n天的均值，但是后者要保存前n天的数据，更占内存。

2.动量梯度下降法(Gradient descent with momentum)

动量梯度下降法(红线)要快于标准的梯度下降法(蓝线)。

指数加权平均、动量梯度下降法、RMSprop、Adam优化算法 (https://mushiming.com/) 第48张

每次迭代，在现有的mini-batch上计算dW，db，更新参数。等式右边的指数加权平均、动量梯度下降法、RMSprop、Adam优化算法 (https://mushiming.com/) 第49张其实是上一状态的值。

指数加权平均、动量梯度下降法、RMSprop、Adam优化算法 (https://mushiming.com/) 第50张

两个超参数(hyperparameter)：α(学习率)、β(控制着指数加权平均)，β常见值等于0.9

3.RMSprop

RMSprop算法同样能加速梯度下降。

每次迭代，在现有的mini-batch上计算dW，db，更新参数。

指数加权平均、动量梯度下降法、RMSprop、Adam优化算法 (https://mushiming.com/) 第51张，

w:= 指数加权平均、动量梯度下降法、RMSprop、Adam优化算法 (https://mushiming.com/) 第53张，b:=

RMS：Root Mean Square，均方根

4.Adam优化算法(optimization algorithm)

该算法实际上是将momentum和RMSprop这两种算法结合起来，也是为了加速梯度下降，应用广泛。

每次迭代，在现有的mini-batch上计算dW，db，更新参数。

指数加权平均、动量梯度下降法、RMSprop、Adam优化算法 (https://mushiming.com/) 第55张，

指数加权平均、动量梯度下降法、RMSprop、Adam优化算法 (https://mushiming.com/) 第57张，

偏差修正：指数加权平均、动量梯度下降法、RMSprop、Adam优化算法 (https://mushiming.com/) 第59张，，，

w:= 指数加权平均、动量梯度下降法、RMSprop、Adam优化算法 (https://mushiming.com/) 第63张，b:=

超参数：学习率α：需要调整、指数加权平均、动量梯度下降法、RMSprop、Adam优化算法 (https://mushiming.com/) 第65张常用值为0.9、常用值为0.999、ε常用值为

THE END

HDLBits(八)学习笔记——Counters(计数器)

京东应急物资供应链管理平台_京东智慧供应链

vivadoltx文件_tcl脚本语言

什么是覆盖方法_表格怎么覆盖相同内容

推荐文章

Oracle的学习心得和知识总结（六）|Oracle数据库同义词技术详解

发表回复

请先登录账户再评论哦