Backgrounnd

传统的处理序列学习的任务，我们通常使用的是 RNN，

Structure

encoder-decoder Stacks

最常用的序列生成模型用的都是 encoder-decoder 结构，attention 模型也不例外，不过不同于传统的 seq2seq 模型，attention 模型每次都是将所有的输入数据一起做的 encoding。还要指出的是，这里的 attention 模型和 Bahdanau 14 年的论文引用 attention 机制来做 mt 是不一样的，这里，google 将 attention 作为了流的所有的部分，并且抛弃了传统 RNN 一个输入接着一个输入的做法。

于是，新的 Attention 结构能够进行并行计算了，而且每次运算的复杂度也可以减少，同时维持了精度。

Attention

Attention 是这篇论文的亮点也是核心所在，从上面的结构我们可以发现，attention 模型的输入是三个，如果这三个都是出自同一个 input 我们称这个 attention 模块为 self-attention

Scaled Dot-product Attention

结合上面整体的架构和 self-attention 模块，我们来详细的描述一下 Scaled Dot-product 过程的 pipeline：

总的输入 $X$ 一般是一个 $n \times C$ 的矩阵，这里 n 表示这段话有 n 个词，C 表示这个词的 one-hot vector 的长度（也就是字典的大小）一般所有用神经网络处理文本的输入都是这样的
对于输入做一个 embedding：$X = XE$ 得到一个 $n \times d_m$ 的向量，这一步，和其他的 RNN 也一样
用三个不同的需要学习的矩阵 $W^Q(d_m \times d_k), W^K(d_m \times d_k), W^V(d_m \times d_v)$ 再对输入做一个映射，生成三个不同的矩阵 $Q(n\times d_k), K(n\times d_k), V(n\times d_v)$ 到这里也就是上面最左边的图片下面的输入。这三个矩阵 Q K V 其实都是有各自的含义的：
- Q K 的作用是生成一个 $n \times n$ 的 attention 权重表
- Q 是 query 的缩写，表示我们的询问期望的是哪些词向量
- V 相当于是最原始输入的句子的每个词向量的表达
有了输入，我们可以直接得到 self-attention 模块的计算公式：
- 当 Q 与 K 做矩阵运算后，底下除了一个系数，这个算是一个归一化的 trick 吧，也是名称 Scaled 的由来
- 最后 softmax(.) 的结果就是 $n \times n$ 的 attention 权重表

最后借用别人的一张图来概括整个过程

Multi-Head Attention

上面介绍的 Scaled Dot-product 是为了引出 Multi-Head Attention 的，Multi-Head Attention 相当于做了 $h$ 次不同的 Scaled Dot-product Attention，然后把这 h 个矩阵拼起来，再做最后一次线性变换

公式为：

$\begin{align} MultiHead(Q, K, V) &= Concat(head_1,...,head_h) W^O \notag \\ head_i &= Attention(XW_i^Q, XW_i^K, XW_i^V) \notag \end{align}$

$W_i^Q \in R^{d_m \times d_k}, W_i^K \in R^{d_m \times d_k}, W_i^K \in V^{d_m \times d_v}$

为什么要多次投影呢，从下面一张图可以看到，single attention 只能够 focus 句子的某一部分，而 multi-head attention 的不同 head 能 focus 不同的句子的部分，图中是指 “it” 应该和哪些部分相关

Position Encoding

由于每次，我们直接把所有的词向量全部放入了模型中进行训练，所以这样就丢失了时间上的信息，也就是词与词之间的先后顺序的关联，为了解决这个问题，我们直接在输入上面做一些手脚。比如在最上面的那张 attention 结构图中，像太极一样的符号就是 positional Encoding，具体的公式是：

$\begin{align} PE_{pos, 2i} &= sin(pos / 10000^{2i/d_m}) \notag \\ PE_{pos, 2i+1} &= cos(pos / 10000^{2i/d_m}) \end{align}$

上面的公式可以生成一个新的 $n\times d_m$ 大小的矩阵（和 input 的大小一样）</br>
生成的矩阵直接和输入做一个叠加 </br>
pos 的取值范围是 $(0, n)$ 表示</br>
i 的取值范围是 $(0, d_m)$

上面的图就是生成的 position encoding 的具体的样子，可以发现层于层之间的 encoding 会比较接近，同时如果某两层差序列上的距离差的比较远的话，他们的向量的表示也会比较远，且差距和序列差距呈正相关？最后这些结果会反应在矩阵的投影上

Trainging

Reference

https://jalammar.github.io/illustrated-transformer/

https://qianqianqiao.github.io/2018/10/23/%E8%AE%BA%E6%96%87%E7%AC%94%E8%AE%B0-Attention-is-All-You-Need/

Vaswani, A., et al. (2017). Attention is all you need. Advances in Neural Information Processing Systems.

Attention is all you need