注意力是你所需要的外文翻译资料

2022-08-13 15:41:34

英语原文共 15 页，剩余内容已隐藏，支付完成后下载完整资料

《Attention is All You Need》

Ashish Vaswani Google Brain avaswani@google.com
Noam Shazeer* Google Brain noam@google.com
Niki Parmar* Google Research nikip@google.com
Jakob Uszkoreit* Google Research usz@google.com
Llion Jones* Google Research llion@google.com
Aidan N. Gomez* University of Toronto aidan@cs.toronto.edu
Łukasz Kaiser* Google Brain lukaszkaiser@google.com
Illia Polosukhin* illia.polosukhin@gmail.com

*同等贡献。 名单顺序随机。 Jakob提出用self-attention替换RNN并开始努力验证这个想法。 Ashish和Illia设计并实现第一个Transformer模型，并在这项工作中的各个方面起着至关重要的作用。 Noam提出缩放版的点积attention、multi-head attention和与参数无关的位置表示。 Niki在我们最初的代码库和tensor2tensor中设计、实现、调优和评估了无数的模型变体。 Llion还尝试了新的模型变体，负责我们的初始代码库，以及高效的推断和可视化。 Lukasz和Aidan花费了无数的时间来设计tensor2tensor的各个部分，取代了我们之前的代码库，极大地改进了结果并大大加快了我们的研究。
dagger;Work performed while at Google Brain.
Dagger;Work performed while at Google Research.

摘要

主流的序列转换模型都是基于复杂的循环或卷积神经网络，这个模型包含一个编码器和一个解码器。具有最好性能的模型在编码和解码之间通过一个注意力机制链接编解码器。我们提出了一个新的简单网络结构Transformer，其仅仅是基于注意力机制，而不完全是循环和卷积。在两个机器翻译任务上的实验表明，该模型具有更好的性能，同时可以进行并行化，并且需要更少的时间进行训练。在WMT 2014英语到德语翻译任务上，我们的模型达到了28.4BLEU，获得了最好的结果。在WMT 2014英语到法语翻译任务上，我们的模型在8个GPU上训练3.5天后，所得到的单个模型获得了41.8BLEU分数。我们在大型和有限的训练数据中，通过将其成功应用于英语句法解析，表明了Transformer可以很好地适用于其他任务。

1.介绍

复杂的神经网络，特别是长短期记忆（LSTM）和门控循环神经网络（GRU）已经被作为现有技术中的方法，用于序列建模和转换问题，例如语言建模和机器翻译。自那以后，许多研究都围绕中有RNN构成的编码器-解码器进行。

循环网络模型通常是考虑了输入和输出序列的中的字符位置的计算。将序列中每位置数据与RNN计算时刻中的步骤对齐，它们将产生一系列隐藏状态，当前时刻隐藏态作为上一时刻隐藏状态和时刻t输入的函数。这种固有的顺序性质排除了训练样本的并行化计算，这在较长的序列长度中变得至关重要，因为内存约束限制了样本的批处理。最近的工作通过分解技巧（ factorization tricks）和条件计算（conditional computation）实现了计算效率的显着提高，同时在后者的情况下也提高了模型性能。然而，顺序计算的基本约束仍然存在。
　　注意力机制已成为各种任务中引人注目的序列建模和转换模型的组成部分，允许对依赖关系进行建模，而不考虑它们在输入或输出序列中的距离。然而，在大多数情况下，这种注意机制与循环网络一起使用。
　　在这项工作中，我们提出了Transformer，一种避免循环的模型架构，它完全依赖于注意机制来构造输入和输出之间的全局依赖关系。Transformer允许进行更多的并行化，并且在8个P100 GPU上经过长达12小时的训练后，可以达到最好的翻译效果。

2.背景

减少顺序计算的目标也构成了扩展神经GPU，ByteNet和ConvS2S的基础，所有这些都使用卷积神经网络作为基本构建块，并行计算所有输入和输出位置的隐藏表示。在这些模型中，关联来自两个任意输入或输出位置的数据所需的操作数量在位置之间随着距离的增长，对于ConvS2S呈线性，对于ByteNet呈对数。这使得学习较远位置之间数据的依赖性变得更加困难。在Transformer中，这被减少到常数级的操作次数，尽管由于平均注意力加权位置而导致有效分辨率降低，这是我们在3.2节中描述的Multi-Head注意力的影响。
　　Self-attention，有时称为intra-attention，是一种关联单个序列的不同位置以计算序列表示的关联机制。Self-attention已经成功地用于各种任务，包括阅读理解，摘要概括，文本蕴涵和学习任务独立的句子表示。
　　端到端的记忆网络基于循环注意机制而不是序列对齐重复，并且已被证明在简单的语言问答和语言建模任务中表现良好。
　　然而，据我们所知，Transformer是第一个完全依靠self-attention的转换模型来计算其输入和输出的表示，而不使用序列对齐的RNN或卷积的模型。在接下来的部分中，我们将描述由self-attention驱动的Transformer，并且讨论与其他模型相比，其优势所在。

3.模型架构

大多数得竞争性神经序列转换模型都具有编码器-解码器结构。这里，编码器将字符表示的输入序列映射到连续表示序列。在给定的条件下，解码器然后一次一个元素地生成字符的输出序列。在每个步骤中，模型都是自动回归的，在生成下一个字符时，将上一时刻生成的字符作为附加输入。
　　Transformer遵循这种整体架构，即在编码器和解码器部分使用栈的self-attention和各数据独立的全连接层，分别如图1的左半部分和右半部分所示。

3.1 编码器和解码器栈

（1）编码器
　　编码器由N=6N=6N=6个相同层的堆栈组成。每层有两个子层。第一个子层是multi-head self-attention，第二个子层是简单的、各位置独立的全连接层。我们在两个子层中的每一个周围使用残差连接(residual connection)，然后进行层归一化（layer normalization）。也就是说，每个子层的输出是，其中是当前子层的输出。为了提高这些残差连接，模型中的所有子层以及嵌入层产生维度的输出。
　　（2）解码器
　　解码器同样由个相同层的堆栈组成。除了每个编码器层中的两个子层之外，解码器还插入第三子层，其对编码器堆栈的输出执行 multi-head attention。与编码器类似，我们在每个子层周围使用残差连接，然后进行层归一化。我们还修改解码器堆栈中的self-attention子层以防止引入当前时刻的后续时刻输入。这种屏蔽与输出嵌入偏移一个位置的事实相结合，确保了位置iii的预测仅依赖于小于的位置处的已知输出。

3.2 注意力

attention函数可以被描述为将query和一组key-value对映射到输出，其中query，key，value和输出都是向量。输出被计算为值的加权求和，其中分配给每个值的权重由query与对应key的兼容性函数计算。

3.2.1 缩放点积Attention

我们将attention称为“缩放点积Attention”（图2）。输入由维度为的query和key以及维度为的value组成。我们用所有key计算query的点积，然后将每个点积结果除，并应用softmax函数来获得value的权重。
在实践中，我们同时在一组query上计算attention函数，将它们打包在一起形成矩阵Q。key和value也一起打包成矩阵K和V. 我们计算输出矩阵为：

　　两个最常用的attention函数是加法attention和点积（乘法）attention。除了缩放因子之外，点积attention与我们的算法相同。加法attention使用具有单个隐藏层的前馈网络来计算兼容性功能。虽然两者在理论上的复杂性相似，但在实践中，点积attention更快，更节省空间，因为它可以使用高度优化的矩阵乘法来实现。

3.2.2 Multi-Head Attention

我们发现，与使用维的key，value和query执行单个attention函数相比，将query，key和value线性映射到不同的，和维度h次是有益的。然后，在这些映射版本的query，key和value中，我们并行执行attention函数，产生h分维度输出值。将它们连接起来并再次映射，得到最终值，如图2所示。
　　Multi-head attention允许模型共同关注来自不同位置的不同表示子空间的信息。只需一个attention head，平均就可以抑制这种情况。

　　其中映射由矩阵完成：。
　　在这项工作中，我们采用h=8h=8h=8个平行attention层或head。对于这些中的每一个，我们使用.由于每个head的维度减小，总计算成本与具有全维度的单head注意力相似。

3.2.3 模型中Attention的应用

Transformer中用了三种不同的方式使用multi-head attention：

在“编码器-解码器attention”层中，query来自上一个解码器层，并且存储的key和value来自编码器的输出。这允许解码器中的每个位置数据都加入了输入序列中的所有位置数据。这模仿了Seq2Seq模型中的典型编码器-解码器注意机制。
编码器包含self-attention层。在self-attention层中，所有key，value和query来自相同的位置数据，是编码器中前一层的输出。在这种情况下，编码器中当前层的每个位置数据都可以处理编码器前一层中的所有位置数据。
类似地，解码器中的self-attention层允许解码器中的每个位置数据参与解码器中的所有位置直到并包括该位置。我们需要防止解码器中的向左信息流以保持自回归属性。我们通过屏蔽（设置为-infin;）softmax输入中与非法连接相对应的所有值来实现缩放点积Attention。见图2。

3.2 位置前馈网络

除了attention子层之外，我们的编码器和解码器中的每个层都包含一个完全连接的前馈网络，该网络分别相同地应用于每个位置。该前馈网络包括两个线性变换，并在第一个的最后使用ReLU激活函数。
(2)
　　虽然线性变换在不同位置上是相同的，但它们在层与层之间使用不同的参数。描述这种情况的另一种方式是两个内核大小为1的卷积。输入和输出的维度是，内层的维度。

3.3 词嵌入和softmax

与其他序列转换模型类似，我们使用学习道德词嵌入将输入符号和输出符号转换为维度的向量。我们同样使用通常学习的线性变换和softmax函数将解码器输出转换为预测的下一个字符的概率。在我们的模型中，我们在两个嵌入层和pre-softmax线性变换之间共享相同的权重矩阵。在嵌入层中，我们将这些权重乘以。

3.4 位置编码

　　由于我们的模型不包含循环网络，也没有卷

剩余内容已隐藏，支付完成后下载完整资料

资料编号：[236056]，资料为PDF文档或Word文档，PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容！立即支付

注册

找回密码