梯度下降
是机器学习框架中用于训练不同模型的一种优化技术。训练过程由目标函数(或误差函数)组成, 该函数确定机器学习模型在给定数据集上的误差。
在训练时, 该算法的参数被初始化为随机值。随着算法的迭代, 参数被更新, 使得我们越来越接近函数的最佳值。
然而, 自适应优化算法由于其迅速融合的能力而越来越受欢迎。与传统的Gradient Descent相比, 所有这些算法都使用先前迭代的统计数据来增强收敛过程。
基于动量的优化:
一种自适应优化算法, 该算法使用先前迭代中梯度的指数加权平均值来稳定收敛, 从而实现更快的优化。例如, 在大多数现实世界中的深度神经网络应用程序中, 训练都是在嘈杂的数据上进行的。因此, 在优化过程中分批馈送数据时, 有必要减少噪声的影响。这个问题可以用解决指数加权平均值(或指数加权移动平均值)。
实施指数加权平均值:
为了在大小为N的嘈杂数据集中近似趋势:
data:image/s3,"s3://crabby-images/b8670/b867021dd0eda96602fabaeaa43a019d8853d278" alt="\ theta_ {0},\ theta_ {1},\ theta_ {2},...,\ theta_ {N}"
, 我们维护了一组参数
data:image/s3,"s3://crabby-images/2dfc5/2dfc5ccfdcd49b52a28785c6429ab447c0d335f5" alt="v_ {0},v_ {1},v_ {2},v_ {3},...,v_ {N}"
。当我们遍历数据集中的所有值时, 我们计算出如下参数:
On iteration t:
Get next
该算法对
data:image/s3,"s3://crabby-images/a47e4/a47e411833db507ae8fbe58ae8c188263bb61fb8" alt="v _ {\ theta}"
超过先前的值
data:image/s3,"s3://crabby-images/e005b/e005b4cd6eef001dfc486981980dc82ef783a4fd" alt="\ frac {1} {1-\ beta}"
迭代。这种平均可确保仅保留趋势, 并且将噪声平均。该方法在基于动量的梯度下降中用作策略, 以使其对数据样本中的噪声具有鲁棒性, 从而加快了训练速度。
例如, 如果要优化功能
data:image/s3,"s3://crabby-images/85514/85514c6997506eb8f0268abd98eb060c05678534" alt="f(x)"
在参数上
data:image/s3,"s3://crabby-images/b7e32/b7e328d6f0649fc6b99b818a7420b30fa54d0fa6" alt="X"
, 以下伪代码说明了该算法:
On iteration t:
On the current batch, compute
此优化算法的超参数为
data:image/s3,"s3://crabby-images/07c8b/07c8b24d01a08662433110a0fdf17532b314e881" alt="\α"
, 称为
学习率
和,
data:image/s3,"s3://crabby-images/fbff2/fbff2b50e3e97b812e2059cb1315872b5338d9ab" alt="\ beta"
, 类似于力学上的加速。
以下是在函数上基于动量的梯度下降的实现
data:image/s3,"s3://crabby-images/234ed/234ed7490027092e55387fba995abd74a900ee71" alt="f(x)= x ^ 2-4 x + 4"
:
import math
# HyperParameters of the optimization algorithm
alpha = 0.01
beta = 0.9
# Objective function
def obj_func(x):
return x * x - 4 * x + 4
# Gradient of the objective function
def grad(x):
return 2 * x - 4
# Parameter of the objective function
x = 0
# Number of iterations
iterations = 0
v = 0
while ( 1 ):
iterations + = 1
v = beta * v + ( 1 - beta) * grad(x)
x_prev = x
x = x - alpha * v
print ( "Value of objective function on iteration" , iterations, "is" , x)
if x_prev = = x:
print ( "Done optimizing the objective function. " )
break