关于递归神经网络（RNN）的入门指南

神经网络正在为不同行业的广泛的深度学习应用提供动力，其用例包括自然语言处理（NLP）、计算机视觉和药物探索。有不同类型的神经网络用于不同的应用，如：

在这篇文章中，我们将探讨RNNs及其使用案例。

什么是递归神经网络（RNNs）？

递归神经网络（RNNs）是一类人工神经网络，它将以前的步骤的输出作为当前步骤的输入。在这个意义上，RNNs对之前的计算有一个 “记忆”。这使得这些算法适合于顺序问题，如自然语言处理（NLP）、语音识别或时间序列分析，其中当前的观察结果取决于以前的观察结果。

RNNs与前馈和卷积神经网络（CNN）的区别在于其时间维度。在其他类型的神经网络算法中，模型的输入和输出被认为是相互独立的。在RNN中，输出取决于之前的元素。

假设你有一个包含 “现在是什么时候？”这句话的语音识别问题。这个问题中的部署算法需要考虑到具体的单词序列，以使输出有意义。如下图所示，RNN通过使用以前的单词作为输入来预测句子中的下一个单词。

部署算法

由于在其他类型的神经网络中，输入和输出是相互独立的，所以它们更适合于不具有顺序性的问题，如图像识别或表格数据分析。

下面的图片展示了RNN的基本结构。右边的图是左边的图的完整（或展开）版本。

RNN的基本结构

底层x是输入层。模型的输入用x(t)表示，其中t是时间步长。x(t)可以是一个单词及其在句子中的位置，或者是某一天的股票价格。
h(t)表示网络在时间步骤t的隐藏状态。隐藏状态作为模型的 “存储器”，它们是根据当前输入x(t)和先前的状态h(t-1)计算出来的。
顶层o是输出层。o(t)代表模型在时间步骤t的输出。当前输出由当前输入x(t)和当前隐藏状态h(t)决定，而当前隐藏状态取决于以前的隐藏状态。这是RNN的显著特征，因为当前输出取决于当前输入和先前输入。
参数（U，V，W）代表输入、隐藏状态和输出之间的权重。它们控制这些之间的影响程度。

更多信息，你可以查看关于普通神经网络如何工作的文章。RNNs是这些常规神经网络的扩展。

RNNs及其变体LSTMs和GRU被用于输入数据具有顺序性的问题中。有顺序数据的应用包括：

递归神经网络存在一个叫做梯度消失的问题，这也是其他神经网络算法的普遍问题。梯度消失问题是一种叫做反向传播的算法的结果，该算法允许神经网络优化学习过程。

简而言之，神经网络模型比较其输出和所需输出之间的差异，并将这一信息反馈给网络，使用一个称为梯度的值来调整参数，如权重。梯度值越大，意味着对参数的调整越大，反之亦然。这个过程一直持续到达到令人满意的精度水平。

RNNs利用通过时间的反向传播（BPTT）算法，其计算结果取决于以前的步骤。然而，如果在反向传播过程中某一步的梯度值太小，那么下一步的值就会更小。这导致梯度以指数形式减少，达到模型停止学习的程度。

这被称为梯度消失问题，并导致RNN有一个短期记忆：早期的输出对当前的输出影响越来越小或没有影响。这可以从上面的 “现在是什么时候？”问题中看出，随着模型在句子中的移动，早期单词的颜色会缩小。

梯度消失的问题可以通过不同的RNN变体来补救。其中两个被称为长短时记忆（LSTM）和门控循环单元（GRU）。这些算法使用被称为 “门 “的机制来控制保留和遗忘多少信息以及哪些信息。

RNNs 神经网络