Menu

学界 | 神经优化器搜索 利用强化学习自动搜索最优化方法

  • 软文     2019-5-22
<返回列表

选自arXiv

参与:路雪

本论文通过强化学习的方式采样不同的更新规则而得出更加优秀的优化方法,这些不同的优化规则通过采样的概率和其在子网络的性能而得出该规则的重要性。本文提出的这种优化方法可以移植到不同的神经网络架构中,并有十分优秀的性能。机器之心对该论文进行了简要地介绍。

论文地址:http://proceedings.mlr.press/v70/bello17a/bello17a.pdf

我们提出了一种可自动探索优化算法的方法,该方法重点关注深度学习架构。我们训练了一个循环神经网络控制器生成特定域语言(domain language)中的字符串,该语言描述一系列基于原函数(比如梯度及其运行平均数(running average)等)的数学更新方程。控制器通过强化学习进行训练以在若干个 epoch 之后最大化模型的性能。在 CIFAR-10 中,我们的方法发现了一些更新规则优于许多常用的优化器,比如 Adam、RMSProp,或在卷积网络模型中带有和不带有动量的优化器。这些优化器也可以转移到不同的神经网络架构,并非常优秀地执行,包括谷歌的神经机器翻译系统。

图 1. 神经优化器搜索(Neural Optimizer Search)概览。

图 2. 一些常用优化器(如 SGD、RMSProp、Adam)的计算图。这里,我们展示了 Adam 在第一步和第二步的计算过程。蓝色框代表输入基元(input primitive)或临时输出(temporary output),黄色框代表一元函数,灰色框代表二元函数。g 代表梯度,代表梯度的偏差修正估计,代表二阶梯度的偏差修正估计。

图 3. 控制器 RNN 概览。控制器可以迭代选择 length 5 的子序列:首先选择第 1 和第 2 个操作数 op1 和 op2,然后将两个一元函数 u1 和 u2 应用到两个操作数(operand)上,最后二元函数 b 连接一元函数的输出。然后 b(u1(op1); u2(op2)) 成为可在后续组预测中作为操作数,或者成为更新规则。每一个预测都由最后的 softmax 分类器得出,然后作为下一个时间步的输入。

图 4. 随着采样优化器不断增加,控制器奖励也随着时间不断上升。

图 5. 神经优化器搜索(Neural Optimizer Search)中两个最好的优化器间的对比,它们都使用双层卷积网络架构。优化器 1 指 ,优化器 2 指

图 6. 神经网络优化器搜索中的一个优化器和 Rosenbrock 函数上著名的优化器之间的对比。优化器 1 指。黑点代表最佳结果。

图 7. 神经优化器搜索中两个最好的优化器间的对比,它们使用 Wide ResNet 架构。优化器 1 指 ,优化器 2 指

表 1. 神经网络优化器搜索和 Wide-ResNet 架构上的标准优化器在 CIFAR-10 上的性能对比。Final Val 和 Final Test 指在 300 个 epoch 上训练之后的最终验证和测试准确度。Best Val 指在 300 个 epoch 上的最佳验证准确度,Best Test 指验证准确度最高的 epoch 上的测试准确度。对于每一个优化器,我们根据验证准确度报告 7 个学习率在对数尺度上的最佳结果。

表 2. 我们的优化器与强大的基线 GNMT 模型中的优化器 ADAM 在 WMT 2014 英语转德语翻译任务上的性能对比。

本文为机器之心编译,转载请联系本公众号获得授权


更多阅读

直击泛家居产行业20强的品牌定位策略

软文 2019-5-22
大材研究注意到,近几年来,有不少公司重塑定位,或者放大原来的优势定位。此事,如果做好了,少则省几千万,多则可省几个亿的广告费。 ...

卖家成长 选取关键词得注意 前期关键词调研更重要

软文 2019-5-22
如今在亚马逊上开个店看似很容易,但要保证出单,持续的出单却很难。原因有很多,老话说的没错,三分靠运气七分靠打拼,而做亚马逊前期...

国庆假期借势海报 杜蕾斯发挥正常 宝马海报无文案 ofo大手笔

软文 2019-5-22
文 | PR天下 今年国庆假期与去年最大不一样的地方在于,期间还要累加一天中秋节假期,共计八天,而这竟成为数家品牌借势创意的发力点。...
返回列表
扫描二维码分享到微信
确 认

Copyright © 2015-2021 发稿网

     
扫码二维码立即咨询
确 认