聊聊RNN&LSTM - 玄机博客-玄机博客

聊聊RNN&LSTM

3年前发布

03414

RNN

用于解决输入数据为，序列到序列(时间序列)数据，不能在传统的前馈神经网络(FNN)很好应用的问题。时间序列数据是指在不同时间点上收集到的数据，这类数据反映了某一事物、现象等随时间的变化状态或程度，即输入内容的上下文关联性强。

整体结构

x、o为向量，分别表示输入层、输出层的值；U、V为权重矩阵，U是输入层到隐藏层的权重矩阵，V是隐藏层到输出层的权重矩阵，W 是上一次的值 S(t-1) 作为这一次的输入的权重矩阵，S(t)是当前的隐藏层矩阵。

RNN层结构与计算公式

RNN层计算公式

RNN层正向传播

MatMul表示矩阵乘积。

这里的h也就是s，都是RNN层函数的输出结果。RNN层的处理函数是tanh，输出结果是h，因此RNN层具有”状态”，这也是其具有记忆性的原因。

RNN隐藏层的输出结果，也被称为隐藏状态或是隐藏状态向量，一般用h或s表示。

RNN层反向传播

蓝线表示反向传播的线路图

带来的问题

由于激活函数Tanh其反向传播时，会导致梯度为0或趋于很大的数值，导致梯度消失或爆炸。

LSTM

通过引入输入门、遗忘门和输出门，解决RNN模型下带来的梯度消失的问题。

整体结构

输出门的结果用o来表示，其计算公式如下：

遗忘门的结果用f表示，其计算公式如下：

输入门的结果用i表示，其计算公式如下：

遗忘门从上一时刻的记忆单元中删除了应该忘记的东西，但需要添加一些应当记住的新信息，新的记忆单元g，其计算公式如下：

要注意的是，不同的门输出所代表的意义不一样，因为其最后流向的地方不一样，分别是转换为了新的记忆单元c，新的隐藏状态h。
最终汇总后的整体结构如下

反向传播

蓝线代表反向传播路径，记忆单元的反向传播仅流过“+”和“×”节点。“+”节点将上游传来的梯度原样流出，所以梯度没有变化（退化）。

优化

LSTM的优化可以从三个方面

LSTM层的多层化
1. 在使用RNN创建高精度模型时，加深LSTM层（叠加多个LSTM层）的方法往往很有效。之前我们只用了一个LSTM层，通过叠加多个层，可以提高语言模型的精度。
基于Dropout抑制过拟合
1. 通过叠加LSTM层，可以期待能够学习到时序数据的复杂依赖关系。换句话说，通过加深层，可以创建表现力更强的模型，但是这样的模型往往会发生过拟合（overfitting）。
2. Dropout随机选择一部分神经元，然后忽略它们，停止向前传递信号。这种“随机忽视”是一种制约，可以提高神经网络的泛化能力。
权重共享
1. 共享权重可以减少需要学习的参数数量，从而促进学习。另外，参数数量减少，还能收获抑制过拟合的好处。
2. 绑定（共享）Embedding层和Affine层的权重的技巧在于权重共享。通过在这两个层之间共享权重，可以大大减少学习的参数数量。

玄机博客

© 版权声明

1.本站内容仅供参考，不作为任何法律依据。用户在使用本站内容时，应自行判断其真实性、准确性和完整性，并承担相应风险。

2.本站部分内容来源于互联网，仅用于交流学习研究知识，若侵犯了您的合法权益，请及时邮件或站内私信与本站联系，我们将尽快予以处理。

3.本文采用知识共享署名4.0国际许可协议 [BY-NC-SA] 进行授权

4.根据《计算机软件保护条例》第十七条规定“为了学习和研究软件内含的设计思想和原理，通过安装、显示、传输或者存储软件等方式使用软件的，可以不经软件著作权人许可，不向其支付报酬。”您需知晓本站所有内容资源均来源于网络，仅供用户交流学习与研究使用，版权归属原版权方所有，版权争议与本站无关，用户本人下载后不能用作商业或非法用途，需在24个小时之内从您的电脑中彻底删除上述内容，否则后果均由用户承担责任；如果您访问和下载此文件，表示您同意只将此文件用于参考、学习而非其他用途，否则一切后果请您自行承担，如果您喜欢该程序，请支持正版软件，购买注册，得到更好的正版服务。

5.本站是非经营性个人站点，所有软件信息均来自网络，所有资源仅供学习参考研究目的，并不贩卖软件，不存在任何商业目的及用途

THE END

机器学习
# 计算机开发 # AI # 机器学习 # 人工智能

喜欢就支持一下吧

相关推荐

评论抢沙发

欢迎您留下宝贵的见解！

提交

暂无评论内容