您当前的位置:硅谷科技网资讯正文

训练网络像是买彩票神经网络剪枝最新进展之彩票假设解读

时间:2019-09-18 13:05:38  阅读:3944+ 作者:责任编辑NO。姜敏0568

机器之心原创

作者:朱梓豪

修改:Haojin Yang

神经网络剪枝技能能够极大的削减网络的参数,并下降存储要求,和进步推理的核算功能。而且现在这方面最好的办法一般能坚持很高的准确性。因而对经过修剪发生的稀少架构的研讨是一个很重要的方向。本选题的思路是对以下两篇论文做深度解读,一探当今最好的剪枝办法的终究。

深度神经网络现已在核算机视觉范畴取得了巨大的成功,如 AlexNet、VGG 等。这些模型动辄就有上亿的参数,传统的 CPU 对如此巨大的网络束手无策,只需具有高核算才干的 GPU 才干相对快速的练习神经网络。如 2012 年 ImageNet 竞赛中夺冠的 AlexNet 模型运用了 5 个卷积层和 3 个全衔接层的 6000 万参数的网络,即便运用其时尖端的 K40 来练习整个模型,仍需求花费两到三天时刻。卷积层的呈现处理了全衔接层的参数规划问题,但叠加若干个卷积层后,模型的练习开支仍然很大。

现在有了功能更强的 GPU,核算一个更深的神经网络、参数更多的神经网络底子不成问题。但事实上并不是每个人都是人手几张卡的,关于具有更多层和节点的神经网络,削减其存储和核算本钱变得至关重要。而且,跟着移动设备和可穿戴设备的遍及,怎么让这些模型在核算才干并不强的移动端也能很好地运用,也成为亟待处理的问题。因而越来越多的研讨者开端研讨神经网络模型紧缩。

归纳现有的模型紧缩办法,它们首要分为四类:参数剪枝和同享(parameter pruning and sharing)、低秩分化(low-rank factorization)、搬运和紧凑卷积核(transferred/compact convolutional filters)、常识蒸馏(knowledge distillation)[1]。

本篇文章首要解读神经网络剪枝方面的两篇论文,第一篇《The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks》是 MIT 团队宣布在 ICLR'19 上的,提出了彩票假定:密布、随机初始化的前馈网络包括子网络(「中奖彩票」),当独立练习时,这些子网络能够在类似的迭代次数内到达与原始网络适当的测验准确率,此文荣获了最佳论文奖。第二篇《Deconstructing Lottery Tickets: Zeros, Signs, and the Supermask》是 Uber AI 团队对彩票假定的深度解构。

论文1:The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks

介绍

练习机器学习模型是数据科学范畴核算本钱最高的方面之一。数十年来,研讨人员现已提出上百种办法来改善机器学习模型的练习进程,这些办法都根据一个正义假定,即练习应该掩盖整个模型。最近,来自 MIT 的研讨人员宣布了一篇论文来应战这一假定,提出了一种更简略的经过重视子网络来练习神经网络的办法,MIT 研讨员起了一个很简略记住的姓名——「彩票假定」(Lottery Ticker Hypothesis)。

机器学习的练习进程,是数据科学家在理论与实际之间面对的退让之一。一般情况下,关于特定问题而言,由于练习本钱的约束,抱负的神经网络架构不能彻底完成。一般来说,神经网络开端的练习需求许多的数据集和贵重的核算本钱,其成果得到一个躲藏层之间充溢杂乱衔接的巨大的神经网络结构。这种结构往往需求经过优化技能,移除某些衔接来调整模型的巨细。数十年来困扰研讨者的一个问题是咱们是否真的需求这样的巨大的神经网络结构。很显着,假如咱们衔接网络中的每个神经元,能够处理特定的问题,但或许由于昂扬的本钱而被逼停步。莫非咱们不能从更小、更精简的网络开端练习吗?这便是彩票假定的实质。

以博彩来类比,练习机器学习模型就适当于经过购买每一张或许的彩票来取得中奖彩票。可是假如咱们知道中奖彩票长什么姿态,那么是不是就能够更聪明地来挑选彩票?在机器学习模型中,练习进程得到的巨大的神经网络结构适当于一大袋彩票。在初始练习之后,模型需求进行优化,例如剪枝,删去网络中不必要的权重,从而在不献身功能的情况下减小模型的巨细。这就适当于在袋子中寻觅中奖彩票,然后丢掉剩余的彩票。一般情况下,经过剪枝后的网络结构要比原始的小 90% 左右。那么问题来了,假如网络结构能够缩小,那么为了进步练习功率为什么纷歧开端就练习这个更小的网络呢?可是,现已有许多试验证明了,假如从头开端练习剪枝后的网络,得到的准确率要比原始网络低许多。

MIT 的彩票假定背面的思维是,一个大型的神经网络包括一个小的子网络,假如一开端就练习,那么会得到和原始网络类似的准确率。

彩票假定

文章中对彩票假定的正式界说为:一个随机初始化的密布神经网络包括一个初始化的子网络,在独自练习时,最多经过相同的迭代次数,能够到达和原始网络相同的测验准确率。

咱们将一个杂乱网络的一切参数作为奖池,上述一组子参数对应的子网络便是中奖彩票。

更正式的,考虑一个密布的前馈神经网络 f(x;θ),其间初始化参数 θ=θ_0~D_θ,当在练习集上用随机梯度下降时,f 能够在 j 次迭代后到达丢失 l 和准确率 a。此外,考虑对参数θ作用一个 01 掩模 m∈^|θ|,在相同的数据集上练习 f(x;m⊙θ), f 在 j' 次迭代后到达丢失 l' 和准确率 a'。彩票假定指出存在 m, 使得 j』=a (准确率更高), ||m||_0

怎么找到中奖彩票

假如彩票假定是正确的,那么下一个问题便是怎么规划一种战略来找出中奖彩票。作者提出一种经过迭代找到中奖彩票的办法:

1. 随机初始化一个杂乱神经网络

2. 练习这个网络 j 次直到收敛

3. 剪掉部分权重参数

4. 将剩余的子网络用第 1 步的权重进行初始化,创立中奖彩票

5. 为了评价第 4 步得到的子网络是否是中奖彩票,练习子网络,比较准确率

上述进程能够进行一次或许屡次,在只需一次剪枝时,网络练习一次,p% 的权重被剪掉。论文中迭代进行 n 次剪枝,每一次剪掉 p^(1/n)% 的权重。

试验剖析

作者分别在针对 MNIST 的全衔接神经网络和针对 CIFAR10 的卷积神经网络上做了许多试验。这儿以 MNIST 试验为例:

Pm 代表网络还剩余多少的参数。从图 3 能够观察到,不同剪枝率的子网络的功能纷歧样,当 Pm>21.2% 时,Pm 越小,即剪枝的参数越多,准确率越高,当 Pm

由图 4 能够观察到,迭代剪枝要比 oneshot 剪枝更快找到中奖彩票,而且在子网络规划较小的情况下仍然能够到达较高的准确率。为了衡量中奖彩票中初始化的重要性,作者保存了中奖彩票的结构然后运用随机初始化从头练习。与中奖彩票不同的是,从头初始化的网络学习速度比本来的网络越来越慢,而且在进行少数剪枝之后就会失掉测验精度。

总结

本文中,作者提出了彩票假定并给出一种寻觅中奖彩票的办法,经过迭代非结构化剪枝的办法能够找到一个子网络,用原始网络的初始化参数来初始化,能够在功能不下降的情况下更快的练习这个子网络,可是假如用随机初始化办法却达不到相同的功能。

作者也在文章中指出这项作业存在的一些问题。例如,迭代剪枝的核算量太大,需求对一个网络进行接连 15 次或 15 次以上的屡次练习。未来能够探究愈加高效的寻觅中奖彩票的办法。

论文2:Deconstructing Lottery Tickets: Zeros, Signs, and the Supermask

彩票假定回忆

Frankle 和 Carbin 在彩票假定(LT)论文中提出一种模型剪枝办法:对网络练习后,对一切小于某个阈值的权重置 0(即剪枝),然后将剩余的权重重置成原始网络初始的权重,终究从头练习网络。根据这种办法,得到了两个风趣的成果。

一方面经过许多剪枝的网络(删掉 85%-95% 的权重)与原网络比较功能并没有显着的下降,而且,假如只是剪掉 50%-90% 的权重后的网络功能往往还会高于原网络。另一方面,关于练习好的一般网络,假如从头随机初始化权重然后再练习,得到的成果与之前的适当。而关于彩票假定的网络并没有这个特色,只需当网络运用和原网络相同的初始化权重,才干很好地练习,假如从头初始化会导致成果变差。剪枝掩模(假如删掉权重置 0,否则为 1)和权重的特定组合构成了中奖彩票。

存在的问题

尽管上篇论文里证明了彩票假定是有用的,可是许多潜在的机制没有得到很好的了解。例如:LT 网络怎么使他们体现出更好的功能?为什么掩模和初始权重集如此严密地耦合在一同,以至于从头初始化网络会下降它的可练习性?为什么简略地挑选大的权重构成了挑选掩模的有用规范?其他挑选掩模的规范也会起作用吗?本篇论文提出了对这些机制的解说,提醒了这些子网络的特别形式,引入了与彩票算法相抗衡的变体,并取得了意外发现的衍生品:超级掩模(supermask)。

掩模原则

作者将每个权重的掩模值设为初始权值和练习后的权值的函数 M(w_i,w_f),能够将这个函数可视化为二维空间中的一组决议计划鸿沟,如图 1 所示。不同的掩码规范能够认为是将二维 (wi =初始权值,wf =终究权值) 空间分割成掩码值为 1 vs 0 的区域。

如图所示的掩码原则由两条水平线标识,这两条水平线将整个区域划分为掩码=1(蓝色) 区域和掩码=0(灰色) 区域,对应于上篇论文中运用的掩模原则:保存终究较大的权重,并剪掉挨近于零的权重。作者将这种称为 large_final mask, M(w_i,w_f)=|w_f|。作者还提出了别的 8 种掩模原则,对应的公式都在下图表示出来了,保存椭圆中五颜六色部分的权重,将灰色部分的权重剪掉。

作者对这些掩模原则做了一系列比照试验,关于全衔接和 Conv4 网络成果如下图所示。能够发现,magnitude increase 和 large_final 比较平起平坐,在 Conv4 网络中还要体现的更好一些。

以随机掩模为基线,咱们能够发现那些倾向于保存具有较大终究值的权重的原则能更好的发现子网络,而保存小权值的作用较差。

正负号的重要性

现在现已探究了对哪些权重进行减值作用较好。接下来的问题是该将保存下来的权重重置为何值。作者首要是想研讨上篇论文中的一个风趣的成果,当重置为原网络初值的时分作用很好,但当随机初始化时,作用会变差。为什么从头初始化作用会变差以及初始化的哪些条件最重要?为了找到问题的答案,作者做了一系列初始化的试验。

Reinit:根据原始的初始化散布来初始化保存的权重

Reshuffle:根据保存权重的原始散布进行初始化

Constant:将保存的权重设为正或负的常数,即每层原初始值的规范差

能够发现保存权重的初始值并没有保存正负号这么重要。假如运用其他的初始化办法,可是疏忽正负号,那么作用很差,和随机初始化差不多(图中虚线)。而假如和本来的权重坚持相同的正负号,三种办法和 LT 网络的初始化作用相差无几(图中实线)。只需坚持正负号共同,即便将剩余的权重都设为常量也不会影响网络的体现。

超级掩模

在最初提到了超级掩模的概念,它是一种二值掩模,当作用到随机初始化的网络上时,即便不从头练习,也能够得到更高的准确率。下面介绍怎么找到最佳的超级掩模。

根据上述对初始符号重要性的洞悉以及让权重更挨近终究值的考虑,作者引入了一种新的掩模原则,挑选较大的权重,而且这些权重在练习后也坚持相同的正负号,作者将其称为 large_final, same sign。而且用 large_final, diff sign 作为对照,两者的差异如下图所示。

经过运用这一掩模原则,能够在 MNIST 上取得 80% 的测验准确率,而上一篇文章 large_final 办法在最好的剪枝率下只需 30% 的准确率(留意这是在没有进行从头练习的情况下)。

总结

这篇文章对上一篇文章进行了深度的解说。经过比较不同的掩模原则和初始化计划来答复为什么彩票假定能够体现的很好。而且有意思的是提出了一种新的「超级掩模」,经过它能够在不从头练习子网络的情况下得到很高的准确率。这为咱们供给了一种新的神经网络紧缩办法,只需求保存掩模和随机数种子就能够重构网络的权重。

参考文献

1. Cheng, Yu, et al. "A survey of model compression and acceleration for deep neural networks." arXiv preprint arXiv:1710.09282 (2017).

2. Frankle, Jonathan, and Michael Carbin. "The lottery ticket hypothesis: Finding sparse, trainable neural networks." ICLR (2019).

3. Zhou, Hattie, et al. "Deconstructing lottery tickets: Zeros, signs, and the supermask." arXiv preprint arXiv:1905.01067(2019).

4. https://eng.uber.com/deconstructing-lottery-tickets/

5. https://towardsdatascience.com/how-the-lottery-ticket-hypothesis-is-challenging-everything-we-knew-about-training-neural-networks-e56da4b0da27

作者介绍朱梓豪,现在是中国科学院信息工程研讨所的硕士研讨生,首要研讨方向为图神经网络、多模态机器学习、视觉对话等方向。喜好科研,喜爱共享,希望能经过机器之心和我们一同学习沟通。

本文为机器之心原创,转载请联络本大众号取得授权。

------------------------------------------------

“如果发现本网站发布的资讯影响到您的版权,可以联系本站!同时欢迎来本站投稿!