离线优化器_1_首页-世纪娱乐-世纪商务站

离线优化器_1

作者：佚名时间：2024-06-18 21:09:52

数据与智能，本公众号关注大数据与人工智能技术。由一批具备多年实战经验的技术极客参与运营管理，持续输出大数据、数据分析、推荐系统、机器学习、人工智能等方向的原创文章，每周至少输出10篇精品原创。同时，我们会关注和分享大数据与人工智能行业动态。欢迎关注。

作者：stephenDC

导语

机器学习中模型参数的求解，是通过优化器实现的，因此优化器也是机器学习问题的重要组成部分。不同的优化器，实现原理不同，适用场景也不同。粗略来分，优化器有适合离线使用的和适合在线使用的。

本文从梯度下降的导出开始，介绍一下离线常用的优化器，其主要内容来自于Sebastian Ruder的一篇综述。原文是英文写的，内容非常详尽，有想了解更多的可以点击文末的阅读原文。

Note：梯度下降基于目标函数的导数这一局部性质，因此梯度下降只在局部是有效的。想象一下，有一个盲人，想要下山。因为是盲人，他无法看到地形的全貌，但他手里有一台仪器，可以得到任意一处位置的地形，因此可以知道在某个点往哪个方向高度是在减小的。另外，我们假设他可以无视地形，也就是说他在移动过程中无论遇到悬崖还是峭壁，都可以不受影响地往这个方向移动任意距离。这就是所谓的梯度下降了，而我们想要解决的问题是，怎么样可以让这位盲人最快地到达山底？、梯度下降的不同形式

梯度下降在具体使用的时候，根据每次使用的样本数量多少，分为以下三种形式。批量梯度下降，使用全部样本计算梯度，然后更新参数，稳定性好但计算量太大；随机梯度下降，一次只使用一个样本，优点是快，缺点是稳定性差；小批量梯度下降，一次使用n个样本，是两者的折中。

梯度下降的不足1.选择一个合适的学习率很难。学习率太大，优化的目标函数容易发散；太小，收敛很慢。2.有人用退火策略逐渐减小学习率。但这需要提前定义策略，并且没有任何策略是可以适用各种不同的数据集的。3.模型中不同的参数，对应的特征在样本中出现的频次差异很大，因此需要不同的学习率。4.梯度下降的更新完全依赖梯度，因此在梯度几乎为零的鞍点，参数将无法更新。基于梯度下降的优化器

Momentum