我从一篇论文中读到:“我们不是在第一转换层中使用相对较大的接收场,而是在整个网络中使用非常小的3×3接收场,这些场与每个像素的输入进行卷积(步幅为1)很容易看出,两个3×3的转换层(之间没有空间合并)的堆栈具有5×5的有效接收场;三个这样的层具有7×7的有效接收场。”

他们如何最终得到7x7的重复字段?

这就是我的理解方式:假设我们有一张图像是100x100。

第1层:对图像进行零填充,然后用3x3滤镜对其进行卷积,再输出另一幅100x100滤镜的图像。

第2层:对上一个已过滤的图像进行零填充,然后将其与另一个3x3过滤器卷积,再输出另一个100x100的过滤图像。

第三层:对上一个已过滤的图像进行零填充,然后将其与另一个3x3过滤器进行卷积,输出最终的100x100过滤的图像。

我在那里想念什么?

最佳答案

这是一种思考方式。考虑下面的小图像,每个像素都这样编号:

00 01 02 03 04 05 06
10 11 12 13 14 15 16
20 21 22 23 24 25 26
30 31 32 33 34 35 36
40 41 42 43 44 45 46
50 51 52 53 54 55 56
60 61 62 63 64 65 66


现在考虑在中心的像素33。通过第一个3x3卷积,像素33的生成值将合并像素22、23、24、32、33、34、42、43和44的值。但是请注意,这些像素中的每个像素还将合并其周围的像素值也是如此。

通过下一个3x3卷积,像素33将再次合并其周围像素的值,但是现在,这些像素的值将合并原始图像中的周围像素。实际上,这意味着像素33的值由达到您可以说的5x5“影响力平方”的值决定。

每个附加的3x3卷积具有在每个方向上将另一个像素扩展有效接收场的效果。

我希望这不仅会使它更加混乱...

08-24 13:49