我想在FER上尝试Capsule Networks。目前,我正在使用fer2013 Kaggle数据集。

我在Capsule Net中不了解的一件事是在第一转换层中,大小减小为20x20-输入图像为28x28,过滤器为9x9,步幅为1。但在胶囊中,尺寸减小到6x6。这怎么发生的?因为输入大小为20x20,过滤器大小为9x9,步幅为2,所以我无法得到6x6。也许我错过了一些东西。

对于我的实验,输入尺寸图像为48x48。我应该在开始时使用相同的超参数,还是可以使用任何建议的超参数?

最佳答案

最初,图片为28 * 28,并且您应用了大小为9的内核,因此损失了(9-1)像素。 (每侧4个)。因此,在第一个卷积层的末尾,您有(28-8)*(28-8)= 20 * 20像素,并且您应用了相同的内核,因此再次是(20-8)*(20-8) = 12 * 12。但是对于第二层,跨度为2,因此仅剩12/2 = 6像素。

对于48 * 48像素,如果应用相同的卷积层,则最后将具有16 * 16图片。 ((48-8-8)/ 2)

关于machine-learning - 胶囊网络-面部表情识别,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/50336136/

10-12 22:31