双向循环神经网络

在序列学习中，我们以往假设的目标是：在给定观测的情况下（例如，在时间序列的上下文中或在语言模型的上下文中），对下一个输出进行建模。虽然这是一个典型情景，但不是唯一的。还可能发生什么其它的情况呢？我们考虑以下三个在文本序列中填空的任务。

我___。
我___饿了。
我___饿了，我可以吃半头猪。

根据可获得的信息量，我们可以用不同的词填空，如“很高兴”（“happy”）、“不”（“not”）和“非常”（“very”）。很明显，每个短语的“下文”传达了重要信息（如果有的话），而这些信息关乎到选择哪个词来填空，所以无法利用这一点的序列模型将在相关任务上表现不佳。例如，如果要做好命名实体识别（例如，识别“Green”指的是“格林先生”还是绿色），不同长度的上下文范围重要性是相同的。为了获得一些解决问题的灵感，让我们先迂回到概率图模型。

隐马尔可夫模型中的动态规划

这一小节是用来说明动态规划问题的，具体的技术细节对于理解深度学习模型并不重要，但它有助于我们思考为什么要使用深度学习，以及为什么要选择特定的架构。

如果我们想用概率图模型来解决这个问题，可以设计一个隐变量模型：在任意时间步 $t$ ，假设存在某个隐变量 $h_{t}$ ，通过概率 $P (x_{t} ∣ h_{t})$ 控制我们观测到的 $x_{t}$ 。此外，任何 $h_{t} \to h_{t + 1}$ 转移都是由一些状态转移概率 $P (h_{t + 1} ∣ h_{t})$ 给出。这个概率图模型就是一个隐马尔可夫模型（hidden Markov model，HMM），如下图所示：

因此，对于有 $T$ 个观测值的序列，我们在观测状态和隐状态上具有以下联合概率分布：

P (x_{1}, \dots, x_{T}, h_{1}, \dots, h_{T}) = t = 1 \prod T P (h_{t} ∣ h_{t - 1}) P (x_{t} ∣ h_{t}), where P (h_{1} ∣ h_{0}) = P (h_{1}) . (8.4.1)

现在，假设我们观测到所有的 $x_{i}$ ，除了 $x_{j}$ ，并且我们的目标是计算 $P (x_{j} ∣ x_{- j})$ ，其中 $x_{- j} = (x_{1}, \dots, x_{j - 1}, x_{j + 1}, \dots, x_{T})$ 。由于 $P (x_{j} ∣ x_{- j})$ 中没有隐变量，因此我们考虑对 $h_{1}, \dots, h_{T}$ 选择构成的所有可能的组合进行求和。如果任何 $h_{i}$ 可以接受 $k$ 个不同的值（有限的状态数），这意味着我们需要对 $k^{T}$ 个项求和，这个任务显然难于登天。幸运的是，有个巧妙的解决方案：动态规划（dynamic programming）。

要了解动态规划的工作方式，我们考虑对隐变量 $h_{1}, \dots, h_{T}$ 的依次求和。根据 式8.4.1 ，将得出：

= = = = = = P (x_{1}, \dots, x_{T}) h_{1}, \dots, h_{T} \sum P (x_{1}, \dots, x_{T}, h_{1}, \dots, h_{T}) h_{1}, \dots, h_{T} \sum t = 1 \prod T P (h_{t} ∣ h_{t - 1}) P (x_{t} ∣ h_{t}) h_{2}, \dots, h_{T} \sum π_{2} (h_{2}) = def [h_{1} \sum P (h_{1}) P (x_{1} ∣ h_{1}) P (h_{2} ∣ h_{1})] P (x_{2} ∣ h_{2}) t = 3 \prod T P (h_{t} ∣ h_{t - 1}) P (x_{t} ∣ h_{t}) h_{3}, \dots, h_{T} \sum π_{3} (h_{3}) = def [h_{2} \sum π_{2} (h_{2}) P (x_{2} ∣ h_{2}) P (h_{3} ∣ h_{2})] P (x_{3} ∣ h_{3}) t = 4 \prod T P (h_{t} ∣ h_{t - 1}) P (x_{t} ∣ h_{t}) \dots h_{T} \sum π_{T} (h_{T}) P (x_{T} ∣ h_{T}) . (8.4.2)

通常，我们将前向递归（forward recursion）写为：

π_{t + 1} (h_{t + 1}) = h_{t} \sum π_{t} (h_{t}) P (x_{t} ∣ h_{t}) P (h_{t + 1} ∣ h_{t}) . (8.4.3)

递归被初始化为 $π_{1} (h_{1}) = P (h_{1})$ 。符号简化，也可以写成 $π_{t + 1} = f (π_{t}, x_{t})$ ，其中 $f$ 是一些可学习的函数。这看起来就像我们在循环神经网络中讨论的隐变量模型中的更新方程。

与前向递归一样，我们也可以使用后向递归对同一组隐变量求和。这将得到：

= = = = = = P (x_{1}, \dots, x_{T}) h_{1}, \dots, h_{T} \sum P (x_{1}, \dots, x_{T}, h_{1}, \dots, h_{T}) h_{1}, \dots, h_{T} \sum t = 1 \prod T - 1 P (h_{t} ∣ h_{t - 1}) P (x_{t} ∣ h_{t}) \cdot P (h_{T} ∣ h_{T - 1}) P (x_{T} ∣ h_{T}) h_{1}, \dots, h_{T - 1} \sum t = 1 \prod T - 1 P (h_{t} ∣ h_{t - 1}) P (x_{t} ∣ h_{t}) \cdot ρ_{T - 1} (h_{T - 1}) = def [h_{T} \sum P (h_{T} ∣ h_{T - 1}) P (x_{T} ∣ h_{T})] h_{1}, \dots, h_{T - 2} \sum t = 1 \prod T - 2 P (h_{t} ∣ h_{t - 1}) P (x_{t} ∣ h_{t}) \cdot ρ_{T - 2} (h_{T - 2}) = def h_{T - 1} \sum P (h_{T - 1} ∣ h_{T - 2}) P (x_{T - 1} ∣ h_{T - 1}) ρ_{T - 1} (h_{T - 1}) \dots h_{1} \sum P (h_{1}) P (x_{1} ∣ h_{1}) ρ_{1} (h_{1}) . (8.4.5)

因此，我们可以将后向递归（backward recursion）写为：

ρ_{t - 1} (h_{t - 1}) = h_{t} \sum P (h_{t} ∣ h_{t - 1}) P (x_{t} ∣ h_{t}) ρ_{t} (h_{t}), (8.4.6)

初始化 $ρ_{T} (h_{T}) = 1$ 。

前向和后向递归都允许我们对 $T$ 个隐变量在 $O (k T)$ （线性而不是指数）时间内对 $(h_{1}, \dots, h_{T})$ 的所有值求和。这是使用图模型进行概率推理的巨大好处之一。它也是通用消息传递算法¹的一个非常特殊的例子。

结合前向和后向递归，我们能够计算

P (x_{j} ∣ x_{- j}) \propto h_{j} \sum π_{j} (h_{j}) ρ_{j} (h_{j}) P (x_{j} ∣ h_{j}) . (8.4.7)

因为符号简化的需要，后向递归也可以写为 $ρ_{t - 1} = g (ρ_{t}, x_{t})$ ，其中 $g$ 是一个可以学习的函数。同样，这看起来非常像一个更新方程，只是不像我们在循环神经网络中看到的那样前向运算，而是后向计算。事实上，知道未来数据何时可用对隐马尔可夫模型是有益的。信号处理学家将是否知道未来观测这两种情况区分为内插和外推，有关更多详细信息，请参阅²。

双向模型

如果我们希望在循环神经网络中拥有一种机制，使之能够提供与隐马尔可夫模型类似的前瞻能力，我们就需要修改循环神经网络的设计。幸运的是，这在概念上很容易，只需要增加一个“从最后一个词元开始从后向前运行”的循环神经网络，而不是只有一个在前向模式下“从第一个词元开始运行”的循环神经网络。双向循环神经网络（bidirectional RNNs）添加了反向传递信息的隐藏层，以便更灵活地处理此类信息。

下图描述了具有单个隐藏层的双向循环神经网络的架构：

事实上，这与隐马尔可夫模型中的动态规划的前向和后向递归没有太大区别。其主要区别是，在隐马尔可夫模型中的方程具有特定的统计意义。双向循环神经网络没有这样容易理解的解释，我们只能把它们当作通用的、可学习的函数。这种转变集中体现了现代深度网络的设计原则：首先使用经典统计模型的函数依赖类型，然后将其参数化为通用形式。

定义

双向循环神经网络是由³提出的，关于各种架构的详细讨论请参阅⁴。让我们看看这样一个网络的细节。

对于任意时间步 $t$ ，给定一个小批量的输入数据 $X_{t} \in R^{n \times d}$ （样本数 $n$ ，每个示例中的输入数 $d$ ），并且令隐藏层激活函数为 $ϕ$ 。在双向架构中，我们设该时间步的前向和反向隐状态分别为 $H_{t} \in R^{n \times h}$ 和 $H_{t} \in R^{n \times h}$ ，其中 $h$ 是隐藏单元的数目。前向和反向隐状态的更新如下：

H_{t} H_{t} = ϕ (X_{t} W_{x h}^{(f)} + H_{t - 1} W_{hh}^{(f)} + b_{h}^{(f)}), = ϕ (X_{t} W_{x h}^{(b)} + H_{t + 1} W_{hh}^{(b)} + b_{h}^{(b)}), (8.4.8)

其中，权重 $W_{x h}^{(f)} \in R^{d \times h}, W_{hh}^{(f)} \in R^{h \times h}, W_{x h}^{(b)} \in R^{d \times h}, W_{hh}^{(b)} \in R^{h \times h}$ 和偏置 $b_{h}^{(f)} \in R^{1 \times h}, b_{h}^{(b)} \in R^{1 \times h}$ 都是模型参数。

接下来，将前向隐状态 $H_{t}$ 和反向隐状态 $H_{t}$ 连接起来，获得需要送入输出层的隐状态 $H_{t} \in R^{n \times 2 h}$ 。在具有多个隐藏层的深度双向循环神经网络中，该信息作为输入传递到下一个双向层。最后，输出层计算得到的输出为 $O_{t} \in R^{n \times q}$ （ $q$ 是输出单元的数目）：

O_{t} = H_{t} W_{h q} + b_{q} . (8.4.9)

这里，权重矩阵 $W_{h q} \in R^{2 h \times q}$ 和偏置 $b_{q} \in R^{1 \times q}$ 是输出层的模型参数。事实上，这两个方向可以拥有不同数量的隐藏单元。

模型的计算代价及其应用

双向循环神经网络的一个关键特性是：使用来自序列两端的信息来估计输出。也就是说，我们使用来自过去和未来的观测信息来预测当前的观测。但是在对下一个词元进行预测的情况中，这样的模型并不是我们所需的。因为在预测下一个词元时，我们终究无法知道下一个词元的下文是什么，所以将不会得到很好的精度。具体地说，在训练期间，我们能够利用过去和未来的数据来估计现在空缺的词；而在测试期间，我们只有过去的数据，因此精度将会很差。下面的实验将说明这一点。

另一个严重问题是，双向循环神经网络的计算速度非常慢。其主要原因是网络的前向传播需要在双向层中进行前向和后向递归，并且网络的反向传播还依赖于前向传播的结果。因此，梯度求解将有一个非常长的链。

双向层的使用在实践中非常少，并且仅仅应用于部分场合。例如，填充缺失的单词、词元注释（例如，用于命名实体识别）以及作为序列处理流水线中的一个步骤对序列进行编码（例如，用于机器翻译）。在 14.8 节和 15.2 节中，我们将介绍如何使用双向循环神经网络编码文本序列。