1. SemStyle: Learning to Generate Stylised Image Captions using Unaligned Text(2018 CVPR)
主要研究方向:本论文主要是做语言风格,就是对同一张图片有多种描述。
2. Neural Baby Talk(2018 cvpr)
主要研究内容:对于图片的描述更多的应该是基于图像内容,而不是基于语言模型去推理;如果是非常见场景,那么模型就差强人意。
3. Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering(2018 CVPR)
主要研究内容:针对attention之前输入的是均等化图片格子,而不是具体的如同人眼观察到的图像内容,故而本论文是先用faster-RCNN检测得到feature map,而后对其加权,再进行转化为自然语言。
4. GroupCap: Group-based Image Captioning with Structured Relevance and Diversity Constraints
主要研究方向:目前大部分的图像描述模型都是集中在一张图像上,也就是一次给一张图像做字幕生成,本论文是给定多张图片来使caption更加具体。
数据集:http://mac.xmu.edu.cn/Data_cvpr18.html (基于MSCOCO更改而成)
5. Image Caption Generation with Hierarchical Contextual Visual Spatial Attention
主要研究方向:这里提出的注意力机制考虑了图片region之间的上下文。