一、基本概念

        将视觉输入分为不同的语义可解释类别;通俗点说就是区分不同部分

语义分割及DeeplabV3+模型-LMLPHP

        分类:

                b)语义分割        c)实例分割        d)全景分割

语义分割及DeeplabV3+模型-LMLPHP

 

         语义分割一般以平均IOU(Intersection Over Union,并交比)来评价性能,其公式如下:

                        语义分割及DeeplabV3+模型-LMLPHP        目的是使得目标与预测尽可能交叠。

        除此之外还有可以选择像素正确率:PA=正确像素之和 / 总像素之和

                                            像素正确率平均值:MPA=1 / (k+1)*PA 

        一般而言语义分割分为以下流程

                输入-->分类器-->后处理-->最终结果

二、DeeplabV3+模型

        ①网络结构

语义分割及DeeplabV3+模型-LMLPHP

                 !DeeplabV3+在编码器部分引入了大量空洞卷积;可以在不损失信息的情况下增大感受野(提升每个卷积输出包含的信息量)

        ②BackBone

                原文采用的主干网络为Xceprion,如算力不足也可用MobileNetV2作为主干网络。

                MobileNetV2由Inverted resblock组成,其网络结构如下:

语义分割及DeeplabV3+模型-LMLPHP

                         分为左半边的主干部分和右半边的残差部分。主干部分的组成及其作用:

                                1x1卷积核:升维

                                3x3卷积核:特征提取

                                1x1卷积核:降维

                !!!一般DeepLabV3中会进行3次或4次下采样(但不会是5次)

                使用BackBone提取后会得到两个有效特征层:压缩2次的结果和压缩4次的结果

        ③加强特征提取结构

                可分为两部分:Encoder和Decoder。

        ④利用特征预测结果

                可以分为2步:

                1.利用1x1卷积进行通道调整,调整成Num_Class

                2.利用resize进行上采样,最终得到和输入图片长宽一致的输出层。(放大

特别鸣谢Bubbliiiing,大家也可以去看他的原文

11-18 08:33