LSTM

RNN的变种

Posted by WJY on December 1, 2018

LSTM

lstm是RNN的一种变体,大致结构一样,区别是:

  • “记忆”改造了;
  • 该记的信息会一直传递,不该记的会被“门”截断。

LSTM结构图

LSTM关键:“细胞状态”

细胞状态类似于传送带。直接在整个链上运行,只有一些少量的线性交互。信息在上面流传

保持不变会很容易。

LSTM怎么控制“细胞状态”?

通过“门”让信息选择性通过,来去除或增加信息到细胞状态

包含一个sigmoid神经网络层和一个pointwise乘法操作

sigmoid层输出0和1之间的概率值,描述每个部分有多少量可以通过。0表示“不许任何量通过”,1表示“允许任意量通过”。

LSTM的几个关键“门”与操作

LSTM的变种

  • 变种1:增加“peephole connection”;让“门”层也会接受细胞状态的输入。

  • 变种2:使用coupled忘记和输入门;之前是分开确定需要忘记和添加的信息,这里是一同做决定。

GRU(Gated Recurrent Unit)

GRU是2014年提出来的。

特点:将遗忘门输入门合成更新门;同样还混合了细胞状态和隐藏状态,和其他改动;比标准lstm简单。

GRU结构

小结

  • LSTM解决RNN的长时依赖问题