批归一化到底做了什么?DeepMind研究者进行了拆解
cac55 2024-10-22 10:03 13 浏览 0 评论
选自arXiv
作者:Soham De、Samuel L. Smith
机器之心编译
参与:魔王
批归一化有很多作用,其最重要的一项功能是大幅提升残差网络的最大可训练深度。DeepMind 这项研究探寻了其中的原因,并进行了大量验证。
论文链接:https://arxiv.org/abs/2002.10444
批归一化用处很多。它可以改善损失分布(loss landscape),同时还是效果惊人的正则化项。但是,它最重要的一项功能出现在残差网络中——大幅提升网络的最大可训练深度。
DeepMind 近期一项研究找到了这项功能的原因:在初始化阶段,批归一化使用与网络深度的平方根成比例的归一化因子来缩小与跳跃连接相关的残差分支的大小。这可以确保在训练初期,深度归一化残差网络计算的函数由具备表现良好的梯度的浅路径(shallow path)主导。
该研究基于此想法开发了一种简单的初始化机制,可以在不使用归一化的情况下训练非常深的残差网络。研究者还发现,尽管批归一化可以维持模型以较大的学习率进行稳定训练,但这只在批大小较大的并行化训练中才有用。这一结果有助于厘清批归一化在不同架构中的不同功能。
批归一化到底干了什么
跳跃连接和批归一化结合起来可以大幅提升神经网络的最大可训练深度。
DeepMind 研究者将残差网络看作多个路径的集成,这些路径共享权重,但是深度各有不同(与 Veit 等人 2016 年的研究类似),进而发现批归一化如何确保非常深的残差网络(数万层)在训练初期被仅包含几十个层的浅路径主导。原因在于,批归一化使用与网络深度的平方根成比例的因子缩小与跳跃连接相关的残差分支的大小。这就为深度归一化残差网络在训练初期可得到高效优化提供了直观解释,它们只是把具备表现良好的梯度的浅层网络集成起来罢了。
上述观察表明,要想在不使用归一化或不进行认真初始化的前提下训练深度残差网络,只需要缩小残差分支即可。
为了确认这一点,研究者改动了一行代码,实现不使用归一化的深度残差网络训练(SkipInit)。结合额外的正则化后,SkipInit 网络的性能可与经过批归一化的对应网络不相上下(该网络使用常规的批大小设置)。
为什么深度归一化残差网络是可训练的?
残差分支经过归一化后,假设 ?f_i 的输出方差为 1。每个残差块的方差增加 1,则第 i 个残差块前的激活的预期方差为 i。因此,对于任意遍历第 i 个残差分支的路径,其方差缩小到 1/i,这说明隐藏层激活缩小到 1/√ i。
如图 3 所示,该缩小因子很强大,可确保具备 10000 个残差块的网络 97% 的方差来自遍历 15 个或者更少残差分支的浅路径。典型残差块的深度与残差块总数 d 成比例,这表明批归一化将残差分支缩小到 1/√ d。
图 3:此图模拟了初始化阶段不同深度的路径对 logits 方差的贡献。
为了验证这一观点,研究者评估两个归一化残差网络的不同通道的方差,以及批统计量(batch statistics),如下图 4 所示。
图 4(a) 中,深度线性 ResNet 的跳跃路径方差几乎等于当前深度 i,而每个残差分支末端的方差约为 1。这是因为批归一化移动方差约等于深度,从而证实归一化将残差分支缩小到原本的 1/√ i。
图 4(b) 中,研究者在 CIFAR-10 数据集上评估使用 ReLU 激活函数的卷积 ResNet。跳跃路径的方差仍与深度成正比,但系数略低于 1。这些关联也导致批归一化移动平均数的平方随着深度的增加而增大。
图4。
这就为「深度归一化残差网络是可训练的」提供了简洁的解释。这一观点可以扩展至其他归一化方法和模型架构。
SkipInit:归一化的替代方案
研究者发现,归一化之所以能够确保深度残差网络的训练,是因为它在初始化阶段按与网络深度平方根成正比的归一化因子缩小残差分支。
为了验证该观点,研究者提出了一个简单的替代方法——SkipInit:在每个残差分支末端放置一个标量乘数,并将每个乘数初始化为 α。
图 1:A) 使用批归一化的残差块。B) SkipInit 用一个可学习标量 α 替代了批归一化。
移除归一化之后,只需改动一行代码即可实现 SkipInit。研究者证明,按 (1/ √ d) 或更小的值初始化 α 就可以训练深度残差网络(d 表示残差块数量)。
研究者引入了 Fixup,它也可以确保残差块在初始化时表示 identity。但是,Fixup 包含多个额外组件。在实践中,研究者发现 Fixup 的组件 1 或组件 2 就足以在不使用归一化的前提下训练深度 ResNet-V2 了。
实证研究
下表 1 展示了 n-2 Wide-ResNet 在 CIFAR-10 数据集上训练 200 epoch 后的平均性能,模型深度 n 在 16 到 1000 层之间。
表 1:批归一化使得我们可以训练深度残差网络。然而在残差分支末端添加标量乘数 α 后,不使用归一化也能实现同样的效果。
下表 2 验证了,当 α = 1 时使用 SkipInit 无法训练深度残差网络,因此必须缩小残差分支。研究者还确认了,对于未经归一化的残差网络,只确保激活函数不在前向传播上爆炸还不够(只需在每次残差分支和跳过路径合并时将激活乘以 (1/ √ 2) 即可实现)。
表 2:如果 α = 1,我们无法训练深度残差网络。
批归一化的主要功能是改善损失分布,增加最大稳定学习率。下图 5 提供了 16-4 Wide-ResNet 在 CIFAR-10 数据集上训练 200 epoch 后的平均性能,批大小的范围很大。
图 5:使用批归一化要比不使用获得的测试准确率更高,研究者还能够以非常大的批大小执行高效训练。
为了更好地理解批归一化网络能够以更大批大小进行高效训练的原因,研究者在下图 6 中展示了最优学习率,它可以最大化测试准确率、最小化训练损失。
图 6:使用和不使用批归一化情况下的最优学习率。
研究者在 ImageNet 数据集上对 SkipInit、Fixup 初始化和批归一化进行了实验对比,证明 SkipInit 可扩展至大型高难度数据分布。
下表 3 展示了最优验证准确率。研究者发现卷积层包含偏置可使 SkipInit 的验证准确率出现小幅提升,因此研究者在所有 SkipInit 运行中添加了偏置。SkipInit 的验证性能与批归一化相当,与使用标准批大小 256 的 Fixup 相当。但是,当批大小非常大时,SkipInit 和 Fixup 的性能不如批归一化。
表 3:研究者训练了 90 个 epoch,并执行网格搜索,以找出最优学习率,从而最大化模型在 ImageNet 数据集上的 top-1 验证准确率。
相关推荐
- 「操作系统」Windows 10 LTSC 2019 企业版C大集成更新版
-
Windows10LTSC企业版CHIANNET集成更新优化整合多镜像版,CHIANNET,是USBOS超级PE维护盘工具箱作者,长久以来一直默默的更新着,USBOSPE软件,电脑城装机及...
- 为什么对缠论的级别总是搞不清?如何准确分辨笔、段、中枢级别?
-
许多人厘清了缠论笔、段、中枢、走势类型等基本概念,但是到实战中区分不了级别就开始混沌了。其实缠论中这几个概念的关系和级别问题,也是缠论运用的难点所在。今天,我们结合缠论指标自动画中枢来图解这一系列问题...
- 微软再次提醒:IE 浏览器将在今年 6 月退役,请使用 Edge
-
IT之家3月18日消息,我们已经知道IE浏览器将在今年“退役”,微软想确保每个人都知道这件事。该公司在Windows消息中心发布了一个新的警告,专门提醒用户IE浏览器将于今年6...
- 系统小技巧:不重启 急救“开始”与“小娜”
-
不断变化和更新的Windows10在给人们带来惊喜的同时,也常常会带来一些不愉快。使用中,也许有时你会遇到“开始”和Cortana按钮忽然失效的情况,不但点击这些按钮没有任何反应,甚至连Win+S搜...
- 一个好汉三个帮 我为Win7添智力(一个好汉三个帮求下联)
-
Win7相对WinXP来说已经智能了许多,但是在平时的使用上仍然有许多的不足。因为系统的很多设置都是统一的,我们无法针对特定的用户、特定的程序作出个性化的更改。今天我们就请三位好汉来帮助Win7,让我...
- iOS升级带来新难题 iTools已无法使用
-
对于广大iOS用户来说,这次的ios8.3版本带来了很多不错的功能,其中最有意思的就是全新表情符号以及CarPlay功能的加入。不过新版本系统在带来了一些好玩功能的同时,也给我们带来了麻烦——iToo...
- 还记得IExplorer吗 微软宣布将于6月15日终止支持
-
【CNMO新闻】近日,微软在Windows消息中心发布了一条新警告,决定在2022年6月彻底淘汰InternetExplorer浏览器。微软还强调,新版Edge浏览器有包含专门集成的IE兼容...
- .bat语言打开网页和打开系统盘(bat文件打开浏览器)
-
一、用.bat(批处理语言)打开网页代码:@echooffstartiexplorewww.baidu.com注释:在notepad中编写上述代码,保存为文件后缀名.bat文件,再用鼠标双击该b...
- 巴巴尔:又一国家级间谍软件被发现
-
安全研究机构最近曝光了一款可以入侵Windows系统计算机的高级尖端的恶意软件,该款名为“巴巴尔”(Babar)的软件旨在盗取目标的价值数据,包括即时通讯、软件电话、浏览器和办公软件的数据。通过对其研...
- lol bug splat的问题应该如何解决?有什么方法?
-
本文摘要lolbugsplat答:英雄联盟bugsplat为账号被卡,和系统以及客户端无关重装也无效,测试办法为用别人的账号登陆试验下,如别人账号能用,则是自己账号问题,只能说TX脑残不知...
- 微软 Win11,20 多年来首个没有 IE 浏览器的 Windows 版本
-
IT之家6月26日消息在Windows10的生命周期中,你可能已经安装了IE浏览器、微软Edge的经典版本,以及新的Chromium驱动的Edge浏览器。这三个浏览器完...
- IE浏览器提示AutoComplete:iexplore.exe应用程序错误的解决方法
-
IE浏览器经常提示AutoComplete:iexplore.exe应用程序错误是怎么回事?不少人会遇到IE浏览器提示AutoComplete:iexplore.exe应用程序错误,然后浏览器就会崩溃...
- Windows 8 手势操作更便捷(win8手势设置)
-
Windows8最显著的一个特性就是增加了大量的手势操作,比如在屏幕上从右边缘向左轻扫,即可唤出Windows8系统超级按钮,相当于按下Win+C快捷键。显然手势操作可以给没有配备键盘、鼠标的平...
- 如何在最新系统继续使用IE浏览器(一个人没了自由,渴望自由的句子)
-
解决“IE已经合并进Edge浏览器”无法打开的方法当你因为特殊原因必须使用ie浏览器的时候,经常会遇到“IE已经合并进Edge浏览器”的提示,并被强制转到edge浏览器。虽然互联网上有很多文章介绍各种...
- 拒绝全家桶,浏览器保护有高招(浏览器保护模式禁用怎么取消)
-
浏览器是我们上网常用的组件,现在网上针对浏览器攻击也非常多,轻则造成主页被广告页面锁定,重则被劫持,并且强制安装上我们不需要的各种流氓插件。那么该怎么更好保护自己浏览器?拒绝广告,固定IE主页默认情况...
你 发表评论:
欢迎- 一周热门
- 最近发表
- 标签列表
-
- 如何绘制折线图 (52)
- javaabstract (48)
- 新浪微博头像 (53)
- grub4dos (66)
- s扫描器 (51)
- httpfile dll (48)
- ps实例教程 (55)
- taskmgr (51)
- s spline (61)
- vnc远程控制 (47)
- 数据丢失 (47)
- wbem (57)
- flac文件 (72)
- 网页制作基础教程 (53)
- 镜像文件刻录 (61)
- ug5 0软件免费下载 (78)
- debian下载 (53)
- ubuntu10 04 (60)
- web qq登录 (59)
- 笔记本变成无线路由 (52)
- flash player 11 4 (50)
- 右键菜单清理 (78)
- cuteftp 注册码 (57)
- ospf协议 (53)
- ms17 010 下载 (60)