(A ,B )---m*n*k---(1,0)(0,1)
分类A和B,让A和B各由7张图片组成,测试集和训练集相同
让这14张图片不断的循环往复,直到收敛,统计分类准确率,并比较,观察分类准确率是如何变化的。
A里有5张图片是重合的,3张101,1张001和1张010.B里有4张图片是重合的,1张101,1张001和2张010.如果网络认为这3张重合图片都是A的,则网络将有4张图片被分类错误,分类准确率为10/14=0.71428571.
但这并不是这个训练集的峰值分类准确率,因为如果认为010是属于B而不是A,则A将有1张图片被分类错误,B有两张图片被分类错误,则A的分类准确率为6/7,B的分类准确率为5/7,因为A和B的测试集数量相同都是7张。因此总的分类准确率就是0.5*6/7+0.5*5/7=11/14=0.78571429.
实测得到的数据
这个网络的峰值分类准确率是0.78571429,并且出现了从10/14到11/14的过度过程。
A有3个101因此101是A的,B有2个010因此010是B的,而001A和B各有1个,所以无论把001分给谁,对总的分类准确率没有影响。因此峰值分类准确率取决于重合图片在训练集中的占比。
所以网络的分类准确率和测试集占比有很大关系,这可以解释为什么有的网络分类准确率由大变小的情况,比如分类A和B,AB各由5张图片构成
如果网络认为01属于B则A的分类准确率是0.2,B是1.但最终网络一定认为01属于A,因为A中有4个01.这时A的准确率是1,B是0.6.但如果AB测试集占比是1:3
则第一种情况的分类准确率是0.2*1/4+1*3/4=0.8
第二种情况的分类准确率是1*1/4+0.6*3/4=0.7.而此时对应的是网络的峰值性能。
所以随着网络的收敛分类准确率从0.8降到0.7.
所以峰值分类准确率取决于训练集的构成比例,如果能充分收敛,最终的分类准确率取决于峰值分类准确率和测试集的构成比例。