前言
HRSC2016作为公开的遥感图像舰船数据集,是国内少有的几个对舰船类别进行细分的遥感舰船数据集,但是由于分了三个级别的类别标注,以及部分图像标注信息不全以及标注方式不容易转换为YOLO等问题,导致利用该数据集进行研究造成一定的困难。本博客分享本人对该数据集的数据集处理经验,希望能够大家有所帮助。
有需要帮助的朋友请关注私信我。可获取处理数据集的脚本程序、yolo标注格式转换好的数据集以及完整的标注信息统计表格等。
一、HRSC2016数据集介绍
HRSC2016数据集官网
https://sites.google.com/site/hrsc2016/
由西北工业大学于2016年发布
提取自Google Earth中6个重要港口
由西北工业大学于2016年发布
采用oriented bounding boxes(OBB)标注格式
image size:300 × 300 ~ 1500 × 900
image number:总数为1680张,但是只有1061张为有效进行标注的图像。这也是很多人下载完官网数据集后感到费解的原因。在训练集、验证集和测试集中分别包含436、181和444张图像
object number:2976
二、数据集特点及难点
该数据集具有如下检测难点:1. 靠岸舰船较多,呈现舰船密集排列分布的特点,标注框重合度较高;2. 遥感图像背景复杂,待测舰船与近岸纹理等相似性较大;3. 舰船的尺度变化多样等,同一张图像有多种大小不一的舰船;4. 舰船的种类丰富,有几十种不同类别的舰船,造成分类检测的难点;5. 每种类别的舰船数量不多,样本量少导致学习训练不够,鲁棒性较差;6. 云雾遮挡等问题。
研究者可重点从以上几个检测难点来研究算法的改进。
三、数据集标注信息类别分析
通过编写脚本程序对官网下载的HRSC2016舰船数据集中所有图像的标注信息类别进行统计,可以得到以下表格情况*(保证准确)。未保证版权,表格内容不全,需要的朋友请关注后私信我吧。
从表格中也可以看到该数据集进行了多级分类,共定义了28个类别,一级分类为船,二级粗分类为航母、军舰、商船、潜艇四大类,三级为各型号细分类,之所以会出现这种情况,因为一张图像中有些舰船的类别确实难以分辨具体的舰船种类,所以标注为大类“船”来说比较科学客观有些。但是这对于研究者来说是个很头疼的事情,比如你要进行细分类的检测,但是一张图像中含有未细分的舰船,这样对于模型的训练造成一定的干扰,也对算法的验证评估客观性难以保证。笔者研究时候,仅仅将舰船分为四个类别即为二级分类,同时将含有标注一级分类“船”的图像全部删除,避免造成干扰。最后形成714张遥感图像舰船分类图像,分为民商船、军舰、航母以及潜艇四个类别进行算法研究。
总结
本博客对遥感图像检测数据集HRSC-2016进行数据分析,希望能对遥感图像舰船检测的朋友们有所帮助。有需要帮助的朋友请关注私信我。可获取处理数据集的脚本程序、yolo标注格式转换好的数据集以及完整的标注信息统计表格等。
关注文末后回复“hrsc”即可获取HRSC-2016数据集。