第七讲_图像描述(图说)Image Captioning
- 本章结构
递归神经网络
时序后向传播(BPTT)
朴素Vanilla-RNN
- 基本模型
- 用sigmoid存在严重的梯度消失
LSTM长短时记忆模型(97年提出)
- 基本模型
- 模型对比
- LSTM数学模型
- 控制门作用理解
LSTM结构图
- LSTM变种:
- Peephole
Coupled 忘记输入门
GRU门限递归单元(Gated Recurrent Unit)
- 改进
- LSTM和GRU比较
图像描述
为图片生成描述语言
- 具有多模态理解和推理;复合理解与推理等研究难点和挑战
- 传统的分段处理策略
- 新的点对点策略
模型组成
Show and tell 模型
概述
具有attention机制模型
数据集
- MSCOCO标注集