我已经使用VGG作为图像分类模型实现了图像字幕。我已经了解到YOLO是一种快速的图像分类和检测模型,它主要用于多目标检测。但是对于图像字幕,我只希望类而不是边界框。

最佳答案

我完全同意Parag S. Chandakkar在回答中提到的内容。如果仅将YOLO和RCNN用于分类,则与VGG-16和其他对象分类网络相比,这两个最常用的对象检测模型速度较慢。 但是,要支持YOLO,我可以提到,您可以创建一个用于图像字幕和图像对象检测的模型。

YOLO生成长度为1470的向量。
neural-network - YOLO是否会与VGG-16有所不同。将其用于图像分类而不是VGG是否有意义?-LMLPHP

  • 调整YOLO以生成数据集支持的类数,即使YOLO生成49 *(数据集中的类数)+ 98 + 392的向量。
  • 使用此向量生成边界框。
  • 进一步调整此向量以生成大小等于类数的向量。您可以对它使用密集层。
  • 将此向量传递到您的语言模型以生成字幕。

  • 因此,总而言之,您可以先生成边界框,然后再对该矢量进行调整以生成字幕。

    关于neural-network - YOLO是否会与VGG-16有所不同。将其用于图像分类而不是VGG是否有意义?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/43292549/

    10-10 23:50