resnet ResNet有多大威力？最近又有了哪些变体？一文弄清

当前位置：首页 > 社会

resnet ResNet有多大威力？最近又有了哪些变体？一文弄清

发布时间：2020-12-28 03:19:36

因为我们知道H_(l-1)是ReLU的输出，ReLu已经是非负的，所以上面的等式被简化为仅将输入传递给下一个身份层:

设p_l为l层在训练时的生存概率。在测试期间，我们有:

其中L表示块的总数，所以p_L是最后一个剩余块的生存概率，在实验中固定为0.5。还要注意，在此设置中，输入被视为第一层(l = 0)，因此不会被丢弃。随机深度训练的总体框架如下图所示。

类似于deep，训练深度随机的深度网络可以看作是训练许多较小ResNets的集合。不同的是这种方法是随机丢弃整层，而drops在训练时只丢弃一部分隐藏单元。

实验表明，随机深度训练110层ResNet比恒定深度训练110层ResNet能获得更好的性能，并且大大减少了训练时间。这表明ResNet中的某些层(路径)可能是冗余的。

ResNet作为小型网络的组合

“深度随机的深度网络”提出了一种反直观的方法来训练一个非常深的网络，在训练时随机丢弃它的层，在测试时使用完整的网络。Veit等人有一个更违反直觉的发现:我们实际上可以删除已经训练过的ResNet的一些层，但是仍然有相当的性能。这使得ResNet架构更加有趣。本文还减少了VGG网络的层数，大大降低了其性能。

首先，本文提供了一个简单的ResNet视图，使事情更加清晰。在我们扩展网络体系结构之后，很明显，带有I个剩余块的ResNet体系结构具有2 * I条不同的路径(因为每个剩余块提供两条独立的路径)。

鉴于以上发现，很容易找出为什么在ResNet架构中删除几层对其性能影响不大——架构有很多独立的有效路径，我们删除几层后大部分保持不变。相反，VGG网络只有一条有效路径，所以删除一层是唯一的办法。

作者还进行了实验，实验表明ResNet中的路径集具有集合行为。他们通过在测试期间删除不同数量的层来做到这一点，然后检查网络的性能是否与删除的层的数量平滑相关。结果表明，网络的行为确实像一个集合，如下图所示:

最后，作者研究了ResNet中路径的特点:

显然，所有可能路径长度的分布都遵循二项式分布，如(a)所示。大多数路径通过19到35个剩余块。

研究了路径长度与梯度大小的关系，得到了路径长度为k时的梯度幅度。首先，作者向网络馈送一批数据，并随机提取k个残差块。当梯度被反向传播时，它们仅传播到采样残余块的权重层。它表明，随着路径变长，梯度迅速降低。

我们现在可以将每个路径长度的频率乘以它的预期梯度大小，以找出每个长度的路径对训练有多大帮助，如(c)所示。令人惊讶的是，大多数贡献来自长度为9到18的路径，但它们只占总路径的一小部分，如(a)所示。这是一个非常有趣的发现，因为它说明了ResNet并没有解决长路径上的梯度消失问题，而是通过缩短其有效路径，ResNet实际上可以训练出一个非常深的网络。

结论

本文回顾了ResNet的体系结构，并简要介绍了它的最新成果。之后介绍了一些关于ResNet变体的有趣论文，并给出了相关解释。希望这篇文章能帮助你理解ResNet。

本文中的所有数字均取自参考文献中的原始文献。

查看更多相关的资讯

欢迎分享转载 →resnet ResNet有多大威力？最近又有了哪些变体？一文弄清

相关文章

精品推荐

国际排行国内排行军事排行社会排行

专题推荐

简历自己的的人中国他的人物都是的是美国你的我的她的孩子也是两人疫情日本 TEXT onload document

图片新闻

点击排行

Copyright © 2002-2020 鲁旭娱乐网版权所有备案号：粤ICP备14025430号-1

收藏本站 - 网站地图 - 关于我们 - 网站公告 - 广告服务