我已经使用VGG作为图像分类模型实现了图像字幕。我已经了解到YOLO是一种快速的图像分类和检测模型,它主要用于多目标检测。但是对于图像字幕,我只希望类而不是边界框。
最佳答案
我完全同意Parag S. Chandakkar在回答中提到的内容。如果仅将YOLO和RCNN用于分类,则与VGG-16和其他对象分类网络相比,这两个最常用的对象检测模型速度较慢。 但是,要支持YOLO,我可以提到,您可以创建一个用于图像字幕和图像对象检测的模型。
YOLO生成长度为1470的向量。
因此,总而言之,您可以先生成边界框,然后再对该矢量进行调整以生成字幕。
关于neural-network - YOLO是否会与VGG-16有所不同。将其用于图像分类而不是VGG是否有意义?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/43292549/