我正在一个项目中,我想使用遮罩RCNN识别一组图像中的对象。但是,我很难理解如何为地面真相数据创建边界框(编码像素)。谁能指出我正确的方向或进一步向我解释?
最佳答案
边界框通常用手工标记。大多数有深度学习的人使用单独的应用程序进行标记。我相信这个软件包很受欢迎:
https://github.com/AlexeyAB/Yolo_mark
我开发了自己的用于标记的RoR解决方案,因为在多个人之间分发工作很有帮助。如果您想看一下,该存储库是开源的:
https://github.com/asfarley/imgclass
我认为称之为“编码像素”有点误导。边界框是带标签的矩形数据类型,这意味着它们完全由矩形(角,矩形,角)的类型(汽车,公共汽车,卡车)和(x,y)坐标定义。
用于定义边界框的软件通常由图像显示元素以及允许用户在UI上拖动边界框的功能组成。我的应用程序使用单选按钮列表来选择对象类型(汽车,公共汽车等)。然后用户绘制一个边界框。
完全标记图像的结果是一个文本文件,其中每一行代表一个边框。您应该查看库文档中的训练算法,以准确了解输入边界框所需的格式。
在我自己的应用程序中,我开发了一些功能来比较不同用户的边界框。在任何大型ML工作中,您可能会遇到一些标签错误的图像,因此,您确实需要一种工具来识别此图像,因为它会严重降低您的结果。
关于python - 如何为深度学习训练数据集创建地面真相边界框?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/59867441/