新手教程之:循环网络和LSTM指南 (A Beginner’s Guide to Recurrent Networks and LSTMs)

  • 时间:
  • 浏览:1
  • 来源:神彩大发11选5_彩神大发11选5官方

  大的加粗的字母给出了每次操作的结果。

    小段的直线代表 关闭的门,空白的小圆圈代表开着的门。在hidden layer下面的水平向下的线和圈是遗忘门。

  2. 循环网络

  Capturing Diverse Time Scales and Remote Dependencies

  Truncated BPTT(截断的BPTT)

  下图给出了简单的RN 和 LSTM单元的对比:

  像大次责的神经网络一样,RN 也是很老的东西了,在1990年早期,梯度消失是抑制RN 性能的主要原应分析。

  一点相关教程:

   4. 梯度爆炸和梯度消失

  本文翻译自:http://deeplearning4j.org/lstm.html

  另还有一个多多GRU是另还有一个多多基础的无输出gate的LSTM,要是有每次时间步骤,完整性从其记忆Cell中将内容写入更大的网络。

  1. 前向传播网络

  2. 循环网络

  就像$y = f(x)$中那样,随着x的变换,y也随之改变,梯度表示了所有权重的改变,对应着误差的改变。可能亲戚亲戚让我门无法知道梯度,就无法调整权重使得误差朝着减少的方向进行,故网络就停止学习了。

  那此门主要作用于亲戚亲戚让我门接收的信号,你是什么 于神经网络的结点。亲戚亲戚让我门利用另一方设置的权重来过滤,基于其力量和重要性来决定阻止可能允许通过信息。那此权重,像给输入和hidden state建模的权重一样,是随着RN学习过程不断调整的。即,Cells 学习何时能 允许数据通过,留下可能删除,通过迭代过程做出预测,后向传播误差,以及通过梯度下降来调整权重。

  在上述流程图中,每个x是另还有一个多多输入样本,w是权重,a是隐层的激活(权重输入和然后hidden state的组合),b是利用rectified linear or sigmoid unit转换后的隐层输出。

  权重输入和hidden state的总和经函数$\phi$变换---要么是 逻辑sigmoid函数,要么是 tanh --- 是另还有一个多多标准的工具来压缩过大可能过小的值,也会将梯度变换的适合后向传播。

   

  如上图所示,循环网络,其输入不仅仅是亲戚亲戚让我门看一遍的当前的输入样本,亲戚亲戚让我门也接收上另还有一个多多时刻的输入。当前时刻的输入是:BTSXVPE,上另还有一个多多时刻的信息存储在 CONTEXT UNIT中。

  要是提供另还有一个多多代码链接:https://github.com/deeplearning4j/dl4j-0.4-examples/blob/master/src/main/java/org/deeplearning4j/examples/recurrent/character/GravesLSTMCharModellingExample.java

  前向网络中的后向传播通过结果输出,权重和每另还有一个多多隐层的输入来回传误差,通过计算亲戚亲戚让我门偏导数 $\{alpha}E/\{alpha}w$,后者亲戚亲戚让我门比率的变换关系。那此导数咋样让用来作为学习的规则,梯度下降,来调整权重,不管哪个方向,来减小误差。

  此外,给每另还有一个多多LSTM引入1的偏差前要改善性能(Sutskever 推荐将bias设为5)。

  下面给出来一幅图,来表示一遍又一遍的利用sigmoid 函数带来的影响。随着使用梯度的增加,曲线几乎变的平坦了,即:梯度也变得非常小!!!

新手教程之:循环网络和LSTM指南 (A Beginner’s Guide to Recurrent Networks and LSTMs)

  前向网络必须是将另还有一个多多输入映射到另还有一个多多输出,咋样让RN 前要将另还有一个多多输入映射到多个输出,像上图所示的那样,也前要从多个到多个,可能从多个到另还有一个多多。

  4. 梯度爆炸与消失

  在前向传播网络的示例中,输入的样本被传到网络中,咋样让将其转换为另还有一个多多输出;在有监督的学习中,输出可能是另还有一个多多标签。即,亲戚亲戚让我门将原始数据映射成类别,识别模式信号,即另还有一个多多图像应该被标记为猫可能大象。

  在90年代中期,RN的另还有一个多多变体,LSTMs 被德国的研究者作为解决梯度消失问提的方案被提出。LSTMs 前要帮助用来存贮经过时间和各个层的误差,通过保持另还有一个多多更加稳定的误差,亲戚亲戚让我门允许RN来继续更多次的时间步骤,从而实现了原应分析和影响的远程操控。

  6. Capturing Diverse Time Scales

  目录:

  时序信息被保位于RN的隐层具体情况中,前要延伸要是有时间步骤来级联前向传播来影响每另还有一个多多新样本的解决。

  

  RN 的目标是准确的分类出序列输入,亲戚亲戚让我门依赖误差的后向传播和梯度下降来完成该目标。

  你你是什么 反馈后向回传每次总要位于,每个 hidden state 不仅中有 然后hidden state的轨迹,也涉及所有解决$h_{t-1}$的hidden state的轨迹,咋样让我有足够的记忆空间。

  上另还有一个多多时刻的决定会影响下另还有一个多多时刻。要是有RN 有另还有一个多多输入来源,当前的和最近时刻的,一并来决定咋样对付到来的新数据。与前向传播网络的不同之位于于,后向循环(feedback loop),即通常所说的RN具有记忆能力。任何东西的位于总要有道理的,同样,给神经网络加在记忆功能也是有收益的,即:前要捕获时序上的信息,RN老是 前要执行前向传播网络所必须做的事情。

  下面的图标表明了数据在记忆单元中的数据流向以及咋样被各种门控制:

  $h_t = \phi(Wx_t + Uh_{t-1})$,

  从底部看起,另还有一个多多箭头表明从多个点刚开始 流向Cell,当前的输入和过去的Cell state的组合既传给Cell两种,还传给他的另还有一个多多门,来决定咋样解决该输入。小孔要是“门”,分别来决定否有让当前新的输入进入,擦除当前的Cell state,可能否有让那个具体情况影响当前网络的输出。$S_c$ 是记忆单元的当前具体情况,$g_y_in$是当前的输入。每另还有一个多多门前要关闭可能开启,在每一步,亲戚亲戚让我门总要重组亲戚亲戚让我门的开启可能关闭具体情况。

  下面的流程图是另还有一个多多正在工作的门:

  你你是什么 次责原应分析是可能信息在神经网络中传递经过要是有相乘的阶段。可能强度神经网路的各个层和时间序列总要根据相乘关系而关联在一并的,梯度是非常敏感,从而会消失可能爆炸。梯度爆炸将要花费 是“蝴蝶效应”,另还有一个多多很小的改变,会原应分析再次总出 很大的反应,即:蝴蝶煽动一下翅膀,会引起一场飓风,卷起一头牛,没有疯狂!咋样让梯度爆炸相对来讲是比较容易解决的,可能亲戚亲戚让我门前要被截断可能压缩。梯度消失,总要点头疼了,他使得计算机可能太小而无法计算,网络也无法进行学习,这果然另还有一个多多很棘手的事情!

  Gated Recurrent Units(GRUs)

  

  另还有一个多多前向传播网络在有标签图像上进行训练,直到亲戚亲戚让我门不断的缩短误差,使得亲戚亲戚让我门前要正确的猜到对应图像的类别。有了那此训练数据的参数可能权重,咋样让就前要识别从未见过的种类数据。另还有一个多多训练的前向传播网络,对图像的识别和解决是无序的,即:看另还有一个多多猫的图像不让使其感知大象。也要是说,他并没有时序的概念,不记得过去解决的事情,只记得当前的训练。

  截断的BPTT是full BPTT的两种估计,更适合长序列,可能full BPTT的每个参数更新的前向和后向代价随着时间的进行,变得没有大。不好的地方在于:梯度前要回传没有远,要是有网络无法像full BPTT那样前要学到很长的依赖。

  1. 强度神经网络简介 http://deeplearning4j.org/zh-neuralnet-overview

  1. 回顾:前向传播网络

    给定另还有一个多多字符序列,recurrent 可能使用第另还有一个多多字符来协助帮助识别第五个字符。你是什么 :另还有一个多多初始的q可能原应分析下另还有一个多多字母是u,当是t时,下另还有一个多多可能是h。可能RN随着时间展开,你你是什么 动画很好的解释了你你是什么 过程:http://imgur.com/6Uak4vF  

    Code Sample:

  LSTMs 将神经网络中正常流动的信息存储在另还有一个多多门细胞中(gated cell)。信息前要存储,写入,后者从这里读取,就像数据位于计算机的存储单元中一样。该Cell经过门的打开和关闭,前要决定存储那此,那此然后允许读取,写入可能擦除。不像计算机中那种数字存储,然而,那此门总要你是什么 的,通过sigmoid执行元素级相乘,总要在0-1的范围内。

  7. 示例代码与评论

  时刻t的隐层具体情况是$h_t$。$x_t$是当前的输入,$W$是权重矩阵,上另还有一个多多时刻的隐层具体情况$h_{t-1}$,以及其 hidden-state-to-hidden-state matrix $U$。权重矩阵$W$ 是两种filter,来根据当前输入和过去的 hidden state 来决定重要性。亲戚亲戚让我门产生的误差会经然后向传播回传,用来调整亲戚亲戚让我门的权重最终使得误差不再下降。

  3. 随着时间的后向传播

  前要要注意到的是:LSTM的记忆单元给出了不同的角色来进行输入的相加和相乘。在另还有一个多多流程图中,中心的加法符号,是LSTM的秘密。像他看起来那样的傻逼,你你是什么 基础的改变,在前要往深处回传时,能帮助亲戚亲戚让我门保存固定的误差。不须通过将其当前具体情况与新的输入相乘来决定然后 的Cell state,亲戚亲戚让我门将其相加,而总要相乘,这两者是有很大区别的。(“遗忘门”依然采用相乘的最好的土妙招。)

  就像人类的记忆力一样,其在身体內部循环,影响亲戚亲戚让我门的行为,咋样让亲戚亲戚让我门看必须其完整性的形状,信息也在RN的隐层具体情况中循环。亲戚亲戚让我门公式化的执行记忆前向的过程:

  RN寻找建立最终输出和一点时间步骤的事件之间的联系,可能最好的土妙招非常遥远的输入迅速知道其重要性,这里作者给出了另还有一个多多很有意思的比喻,即:你祖父的祖父的祖父的祖父的祖父的祖父的祖父的祖父的祖父的祖父的祖父的祖父的祖父的祖父的祖父的祖父,亲戚亲戚让我门在数量上增加到迅速,咋样让亲戚亲戚让我门的遗产就变得没有模糊了。

  There are a lot of moving parts here, so if you are new to LSTMs, don’t rush this diagram---contemplate it. After a few minutes, it will begin to reveal its secrets.

  8. 资源

  你可能比较疑惑,LSTM是为了联系远距离再次总出 的最终的输出,没有为什要引入“遗忘门”?是啊,记得多了,容易累啊,当然要选择性的遗忘一点东西来摆脱痛苦。哈哈,扯淡呢!咋样让,咋样让,是的确前要遗忘的。你是什么 :当你另还有一个多多解决另还有一个多多文本时,咋样让接近尾声了,没有你可能没有任何理由相信下另还有一个多多文档与当前的文档有那此联系?对吧?要是有,当网络刚开始 输入下另还有一个多多文档的相关内容时,应该将记忆单元置0,要花费 暂时清除缓存,以准备下另还有一个多多工作。

  ...

  权重的不同集合为了输入 输出 和遗忘过滤输入。遗忘门 表示为线性形状函数,可能可能你你是什么 门打开,没有记忆Cell的当前具体情况就简单的乘以1,来以此向前传播多个时间步骤。

  5. LSTMs

  RN依赖于后向传播的拓展,称为:Backpropagation through time, or called BPTT。时间,在你你是什么 具体情况下,就被简单的表达成另还有一个多多定义好的,有序列的计算将另还有一个多多time step和下另还有一个多多time step联系起来,那此都前要BP来完成。神经网络,不管否有循环的,前要简单的表述成符合的函数:$f(g(h(x)))$。增加时间元素,仅仅是拓展该函数序列,亲戚亲戚让我门前要通过链式法则来计算偏导数。

  2. 卷积网络 http://deeplearning4j.org/zh-convolutionalnets

  3. 随时间后向传播(Backpropagation Through Time ( BPTT ))

猜你喜欢

【急】女生学考古系有前途吗?就业难吗?需要克服的问题有什么?

不一定的,冷门只是 是因为用世俗的眼光看,社会尚未过度关注。事实上,越是热门的,越是千军万马过独木桥,越是冷门的,越没法学校跟风竞争,竞争的毕业生越少,越容易好在行业内就业。

2020-02-28

盗墓笔记里闷油瓶的来历是什么

苗族首领为哪几种要刺瞎陈皮阿四的眼睛?是是不是他看到哪几种被委托人不该看的东西?是不以后那枚蛇眉铜鱼?还有,朋友儿否其他同学太好云彩和闷油瓶前一天就认识和熟悉?阴山古楼这一

2020-02-28

机器学习实战篇——用卷积神经网络算法在Kaggle上跑个分

这是本问最难的每项,作用实际上要是对数据进行避免,转加带TensorFlow读得懂的数据。从AI学习笔记——卷积神经网络(CNN)的文章中大伙儿儿知道,一张图片有有一几个 维

2020-02-28

文艺复兴时期中国是什么朝代

展开完整性明朝(1368年―1644年)是中国历史上最后另2个 由汉族建立的大一统王朝,共传十六帝,享国二百七十六年。文艺复兴(Renaissance)是指趋于稳定在14

2020-02-27

德国文艺复兴时期的雕塑是怎样的?

展开完正蒂尔曼·里门施奈德(TirmanRiemenschneider,约1455—1531)是德国文艺复兴时期成就最卓著的雕塑家,为德国留下了一批雕刻精品,他的风格仍然属于晚

2020-02-27