指数加权平均、动量梯度下降法、RMSprop、Adam优化算法

(134) 2024-05-16 21:01:01

目录

1.指数加权平均(exponentially weighted averages)

这里有一年的温度数据。

指数加权平均、动量梯度下降法、RMSprop、Adam优化算法 (https://mushiming.com/)  第1张

如果想计算温度的趋势,也就是局部平均值(local average),或者说移动平均值(moving average),怎么做?

指数加权平均、动量梯度下降法、RMSprop、Adam优化算法 (https://mushiming.com/)  第2张

指数加权平均、动量梯度下降法、RMSprop、Adam优化算法 (https://mushiming.com/)  第3张:当天的温度,指数加权平均、动量梯度下降法、RMSprop、Adam优化算法 (https://mushiming.com/)  第4张:从当天开始计算前指数加权平均、动量梯度下降法、RMSprop、Adam优化算法 (https://mushiming.com/)  第5张天的平均温度,指数加权平均、动量梯度下降法、RMSprop、Adam优化算法 (https://mushiming.com/)  第6张:从昨天开始计算前指数加权平均、动量梯度下降法、RMSprop、Adam优化算法 (https://mushiming.com/)  第5张天的平均温度。

比如,β=0.9,计算的就是前10天的平均温度,如下图红线所示。β=0.98,计算的就是前50天的平均温度,如下图绿线所示。

指数加权平均、动量梯度下降法、RMSprop、Adam优化算法 (https://mushiming.com/)  第8张

为什么是指数加权平均、动量梯度下降法、RMSprop、Adam优化算法 (https://mushiming.com/)  第5张天?

指数加权平均、动量梯度下降法、RMSprop、Adam优化算法 (https://mushiming.com/)  第10张指数加权平均、动量梯度下降法、RMSprop、Adam优化算法 (https://mushiming.com/)  第11张指数加权平均、动量梯度下降法、RMSprop、Adam优化算法 (https://mushiming.com/)  第12张...

指数加权平均、动量梯度下降法、RMSprop、Adam优化算法 (https://mushiming.com/)  第13张...指数加权平均、动量梯度下降法、RMSprop、Adam优化算法 (https://mushiming.com/)  第14张

这些项的系数呈指数级减少

指数加权平均、动量梯度下降法、RMSprop、Adam优化算法 (https://mushiming.com/)  第15张0.37,指数加权平均、动量梯度下降法、RMSprop、Adam优化算法 (https://mushiming.com/)  第16张

当β->1,选定指数加权平均、动量梯度下降法、RMSprop、Adam优化算法 (https://mushiming.com/)  第5张为分界线,从指数加权平均、动量梯度下降法、RMSprop、Adam优化算法 (https://mushiming.com/)  第18张开始,以后的项都可忽略不计,(1-β)=指数加权平均、动量梯度下降法、RMSprop、Adam优化算法 (https://mushiming.com/)  第19张

例:β=0.9,10为分界线,指数加权平均、动量梯度下降法、RMSprop、Adam优化算法 (https://mushiming.com/)  第20张(1-0.9)指数加权平均、动量梯度下降法、RMSprop、Adam优化算法 (https://mushiming.com/)  第21张0.9指数加权平均、动量梯度下降法、RMSprop、Adam优化算法 (https://mushiming.com/)  第22张0.指数加权平均、动量梯度下降法、RMSprop、Adam优化算法 (https://mushiming.com/)  第23张...+0.指数加权平均、动量梯度下降法、RMSprop、Adam优化算法 (https://mushiming.com/)  第24张指数加权平均、动量梯度下降法、RMSprop、Adam优化算法 (https://mushiming.com/)  第25张...指数加权平均、动量梯度下降法、RMSprop、Adam优化算法 (https://mushiming.com/)  第26张

β=0.98,50为分界线,指数加权平均、动量梯度下降法、RMSprop、Adam优化算法 (https://mushiming.com/)  第20张(1-0.98)指数加权平均、动量梯度下降法、RMSprop、Adam优化算法 (https://mushiming.com/)  第21张0.指数加权平均、动量梯度下降法、RMSprop、Adam优化算法 (https://mushiming.com/)  第29张0.指数加权平均、动量梯度下降法、RMSprop、Adam优化算法 (https://mushiming.com/)  第30张...+0.指数加权平均、动量梯度下降法、RMSprop、Adam优化算法 (https://mushiming.com/)  第31张指数加权平均、动量梯度下降法、RMSprop、Adam优化算法 (https://mushiming.com/)  第25张...指数加权平均、动量梯度下降法、RMSprop、Adam优化算法 (https://mushiming.com/)  第33张

偏差修正(Bias correction)

β=0.98,如果没有进行偏差修正,得到的其实是下图的紫线。

指数加权平均、动量梯度下降法、RMSprop、Adam优化算法 (https://mushiming.com/)  第34张

指数加权平均、动量梯度下降法、RMSprop、Adam优化算法 (https://mushiming.com/)  第35张指数加权平均、动量梯度下降法、RMSprop、Adam优化算法 (https://mushiming.com/)  第36张0.02指数加权平均、动量梯度下降法、RMSprop、Adam优化算法 (https://mushiming.com/)  第37张指数加权平均、动量梯度下降法、RMSprop、Adam优化算法 (https://mushiming.com/)  第38张=0.98x0.02指数加权平均、动量梯度下降法、RMSprop、Adam优化算法 (https://mushiming.com/)  第37张+0.02指数加权平均、动量梯度下降法、RMSprop、Adam优化算法 (https://mushiming.com/)  第40张

指数加权平均、动量梯度下降法、RMSprop、Adam优化算法 (https://mushiming.com/)  第37张=5,指数加权平均、动量梯度下降法、RMSprop、Adam优化算法 (https://mushiming.com/)  第42张,算局部平均值的时候,不太合理,偏小

所以,在估测初期要进行一个修正,公式:指数加权平均、动量梯度下降法、RMSprop、Adam优化算法 (https://mushiming.com/)  第43张

:t=2,指数加权平均、动量梯度下降法、RMSprop、Adam优化算法 (https://mushiming.com/)  第38张要修正为指数加权平均、动量梯度下降法、RMSprop、Adam优化算法 (https://mushiming.com/)  第45张,β=0.98

当t越来越大的时候,指数加权平均、动量梯度下降法、RMSprop、Adam优化算法 (https://mushiming.com/)  第43张就近似等于指数加权平均、动量梯度下降法、RMSprop、Adam优化算法 (https://mushiming.com/)  第4张,上图的紫线就和绿线重合了,修正偏差的作用也就不大了。

所以,如果你关心初始时期的偏差,偏差修正能让你在早期获得更好的估测。不在乎早期的偏差,不做修正也问题不大。

指数加权平均优点是只会占很少的内存,计算的时候只需要一行代码,需要知道的信息很少。计算精度肯定不如直接计算前n天的均值,但是后者要保存前n天的数据,更占内存。

2.动量梯度下降法(Gradient descent with momentum)

动量梯度下降法(红线)要快于标准的梯度下降法(蓝线)。

指数加权平均、动量梯度下降法、RMSprop、Adam优化算法 (https://mushiming.com/)  第48张

每次迭代,在现有的mini-batch上计算dW,db,更新参数。等式右边的指数加权平均、动量梯度下降法、RMSprop、Adam优化算法 (https://mushiming.com/)  第49张其实是上一状态的值。

指数加权平均、动量梯度下降法、RMSprop、Adam优化算法 (https://mushiming.com/)  第50张

两个超参数(hyperparameter):α(学习率)、β(控制着指数加权平均),β常见值等于0.9

3.RMSprop

RMSprop算法同样能加速梯度下降

每次迭代,在现有的mini-batch上计算dW,db,更新参数。

指数加权平均、动量梯度下降法、RMSprop、Adam优化算法 (https://mushiming.com/)  第51张指数加权平均、动量梯度下降法、RMSprop、Adam优化算法 (https://mushiming.com/)  第52张

w:=指数加权平均、动量梯度下降法、RMSprop、Adam优化算法 (https://mushiming.com/)  第53张,b:=指数加权平均、动量梯度下降法、RMSprop、Adam优化算法 (https://mushiming.com/)  第54张

RMS:Root Mean Square,均方根

4.Adam优化算法(optimization algorithm)

该算法实际上是将momentumRMSprop这两种算法结合起来,也是为了加速梯度下降,应用广泛

每次迭代,在现有的mini-batch上计算dW,db,更新参数。

指数加权平均、动量梯度下降法、RMSprop、Adam优化算法 (https://mushiming.com/)  第55张指数加权平均、动量梯度下降法、RMSprop、Adam优化算法 (https://mushiming.com/)  第56张

指数加权平均、动量梯度下降法、RMSprop、Adam优化算法 (https://mushiming.com/)  第57张指数加权平均、动量梯度下降法、RMSprop、Adam优化算法 (https://mushiming.com/)  第58张

偏差修正:指数加权平均、动量梯度下降法、RMSprop、Adam优化算法 (https://mushiming.com/)  第59张指数加权平均、动量梯度下降法、RMSprop、Adam优化算法 (https://mushiming.com/)  第60张指数加权平均、动量梯度下降法、RMSprop、Adam优化算法 (https://mushiming.com/)  第61张指数加权平均、动量梯度下降法、RMSprop、Adam优化算法 (https://mushiming.com/)  第62张

w:=指数加权平均、动量梯度下降法、RMSprop、Adam优化算法 (https://mushiming.com/)  第63张,b:=指数加权平均、动量梯度下降法、RMSprop、Adam优化算法 (https://mushiming.com/)  第64张

超参数:学习率α:需要调整、指数加权平均、动量梯度下降法、RMSprop、Adam优化算法 (https://mushiming.com/)  第65张常用值为0.9、指数加权平均、动量梯度下降法、RMSprop、Adam优化算法 (https://mushiming.com/)  第66张常用值为0.999、ε常用值为指数加权平均、动量梯度下降法、RMSprop、Adam优化算法 (https://mushiming.com/)  第67张

THE END

发表回复