resnet ResNet有多大威力?最近又有了哪些变体?一文弄清

当前位置:首页 > 社会

resnet ResNet有多大威力?最近又有了哪些变体?一文弄清

发布时间:2020-12-28 03:19:36

因为我们知道H_(l-1)是ReLU的输出,ReLu已经是非负的,所以上面的等式被简化为仅将输入传递给下一个身份层:

设p_l为l层在训练时的生存概率。在测试期间,我们有:

其中L表示块的总数,所以p_L是最后一个剩余块的生存概率,在实验中固定为0.5。还要注意,在此设置中,输入被视为第一层(l = 0),因此不会被丢弃。随机深度训练的总体框架如下图所示。

类似于deep,训练深度随机的深度网络可以看作是训练许多较小ResNets的集合。不同的是这种方法是随机丢弃整层,而drops在训练时只丢弃一部分隐藏单元。

实验表明,随机深度训练110层ResNet比恒定深度训练110层ResNet能获得更好的性能,并且大大减少了训练时间。这表明ResNet中的某些层(路径)可能是冗余的。

ResNet作为小型网络的组合

“深度随机的深度网络”提出了一种反直观的方法来训练一个非常深的网络,在训练时随机丢弃它的层,在测试时使用完整的网络。Veit等人有一个更违反直觉的发现:我们实际上可以删除已经训练过的ResNet的一些层,但是仍然有相当的性能。这使得ResNet架构更加有趣。本文还减少了VGG网络的层数,大大降低了其性能。

首先,本文提供了一个简单的ResNet视图,使事情更加清晰。在我们扩展网络体系结构之后,很明显,带有I个剩余块的ResNet体系结构具有2 * I条不同的路径(因为每个剩余块提供两条独立的路径)。

鉴于以上发现,很容易找出为什么在ResNet架构中删除几层对其性能影响不大——架构有很多独立的有效路径,我们删除几层后大部分保持不变。相反,VGG网络只有一条有效路径,所以删除一层是唯一的办法。

作者还进行了实验,实验表明ResNet中的路径集具有集合行为。他们通过在测试期间删除不同数量的层来做到这一点,然后检查网络的性能是否与删除的层的数量平滑相关。结果表明,网络的行为确实像一个集合,如下图所示:

最后,作者研究了ResNet中路径的特点:

显然,所有可能路径长度的分布都遵循二项式分布,如(a)所示。大多数路径通过19到35个剩余块。

研究了路径长度与梯度大小的关系,得到了路径长度为k时的梯度幅度。首先,作者向网络馈送一批数据,并随机提取k个残差块。当梯度被反向传播时,它们仅传播到采样残余块的权重层。它表明,随着路径变长,梯度迅速降低。

我们现在可以将每个路径长度的频率乘以它的预期梯度大小,以找出每个长度的路径对训练有多大帮助,如(c)所示。令人惊讶的是,大多数贡献来自长度为9到18的路径,但它们只占总路径的一小部分,如(a)所示。这是一个非常有趣的发现,因为它说明了ResNet并没有解决长路径上的梯度消失问题,而是通过缩短其有效路径,ResNet实际上可以训练出一个非常深的网络。

结论

本文回顾了ResNet的体系结构,并简要介绍了它的最新成果。之后介绍了一些关于ResNet变体的有趣论文,并给出了相关解释。希望这篇文章能帮助你理解ResNet。

本文中的所有数字均取自参考文献中的原始文献。

欢迎分享转载 →resnet ResNet有多大威力?最近又有了哪些变体?一文弄清

Copyright © 2002-2020 鲁旭娱乐网 版权所有 备案号:粤ICP备14025430号-1

收藏本站 - 网站地图 - 关于我们 - 网站公告 - 广告服务