目录
RNN在反向传播时容易遭受梯度消失的问题,而梯度是用于更新神经网络权重的关键因子,梯度消失描述的是梯度在时间序列反向传播中逐渐减小的情况。
若梯度过小,它对于网络的学习贡献甚微。结果是,在RNN中,梯度更新很小的层级,并不能有效的学习。
RNN 容易遗忘较长序列中的信息,从而只留下短期记忆。
LSTM 和 GRU 正是为了解决短期记忆而设计的。
而LSTM的核心概念是它们的单元状态和各种门。
细胞状态如同一条信息告诉通道,持续传递至整个序列中,它可被视作网络的记忆中心。
参考资料
[1] 超简单理解LSTM和GRU模型,深度学习入门 2023.8