用神经网络结构生成对联外文翻译资料

2021-12-22 10:12

英语原文共 11 页

用神经网络结构生成对联

芮艳1,2，李承特3，胡晓华4，张明5

1北京大学计算机科学与技术研究所，北京100871;

2自然语言处理系，北京100193

3中央研究院，台北市11529

4美国费城德雷塞尔大学计算机与信息学院，宾州19104

5北京大学计算机科学系，北京100871

yanrui02@baidu.com, ctli@citi.sinica.edu.tw

xh29@drexel.edu, mzhang cs@pku.edu.cn

摘要

中国独特文化遗产的一部分是中国对联。给定一个句子(即先行子句)，人们用另一个长度相等的句子(即后置子句)来回答。此外，还有一种特殊的现象，即两个子句中相同位置的对应字符，在语义和/或句法关系上受到一定的约束，从而相互匹配。计算机自动生成对联被认为是一个难题，至今尚未得到充分的研究。我们使用神经网络结构将任务表述为自然语言生成问题。根据已发布的先行子句，系统通过顺序语言建模生成后续子句。为了满足对联的特殊性，我们将attention 机制和polishing schema引入到对联的encoding-decoding过程中。对联是增量地、迭代地生成的。通过使用困惑度和BLEU算法的测量加上人类的判断的综合评估，证明了我们的方法的有效性。

介绍

中国对联，(即“对联”)，构成一种由两个分句组成的特殊类型的诗歌，（即，句子）。中国对联挑战游戏的流行体现在人们生活的许多方面，例如，作为一种表达个人情感、政治观点或在节日场合传递信息的手段。因此，中国春联被认为是一项重要的文化遗产。在一些特殊的节日，如婚礼和中国农历新年，人们会在红色的横幅上书写对联。人们还会用对联来庆祝生日，纪念开业仪式，纪念历史事件。我们在图1中展示了一幅中国新年庆祝活动的对联，并将其逐字翻译成英语。

图1:中国新年对联的例子。我们在对联的每个汉字下面做了逐字翻译，以说明两个分句在同一位置的每个汉字都有一定的关联性的约束。总的来说，这对对联可以翻译为:“和平与幸运”(即“和顺”)。表明无数幸福;两个字“平安无恙”。（又名：平安）值得无数的珍宝。

通常在对联生成游戏中，一个人用一句话(即先行子句)来挑战另一个人。然后另一个人用其他在长度和分词上是相等的句子(即子句)来回答，即两个子句中相同位置的对应字符通过遵守语义和/或句法关系上的某些约束而相互匹配。我们还举例说明了中国对联在人物上的特殊现象，“一”与“二”配对，“词”与“字”相关联，“百”与“千”相对应，“幸福”与“宝藏”相结合。与自由语言不同，对联具有独特的诗性优雅，如唯美性、简洁性等。对联的填写被认为是一项具有挑战性的任务，有一系列的结构和语义要求。只有少数最优秀的学者能够掌握操纵和组织术语的技巧。

在人工智能和自然语言处理的共同领域中，具有先行子句的对联生成是一个巨大的挑战。随着计算技术的快速发展,我们意识到电脑在帮助人们创建对联的时候可能扮演重要的角色，1)对于计算机来说，从一个大语料库中挑选出合适的词汇组合是相当方便的。2)计算机程序在识别、学习、甚至记忆语料库中给定的模式或规则方面具有很大的优势。虽然计算机不能代替人类的创造力，但它们可以处理大量的对联文本。此外，对于机器来说，检查生成的对联是否符合约束要求相对简单。上面的观察激发了使用计算智能自动生成对联的动机。除了建立一个能够最终创造出有意义的对联的自主智能系统的长期目标之外，还有一些潜在的短期应用，可以增强人类的专业知识/经验，从而创造出用于娱乐或教育目的的对联。

为了设计自动对联发生器，首先需要对生成准则进行实证研究。我们在这里讨论一些通用的生成标准。例如，对联通常有严格的格式，两个子句的长度相同。这种语法约束是严格的，两个子句都有相同的长度而长度是用汉字来衡量的。两个子句位置相同的每个字符都有一定的约束。这个限制没有那么严格。由于汉语有时是灵活的，同义词和反义词都表示语义上的联系。同时，语义连贯也是对联的一个重要特征。写得好的对联应该在两个子句之间具有语义上的连贯性。

本文研究的是自动生成对联问题。我们提出了一种基于神经网络结构的神经对联机器(NCM)。在大量的文本集合中，我们学习单个字符的表示，以及它们在子句中的组合，以及它们如何相互加强和约束.给定任何指定的先行子句，系统可以通过使用编码和解码的顺序语言建模生成后续子句。为了满足对联的特殊性，我们将attention 机制和polishing schema引入到对联的encoding-decoding过程中。对联是递增的，迭代地进行优化。与单通道生成过程不同，在我们的系统中，对草案后续条款的隐藏表示将被注入到神经网络结构中去润色下一个版本的条款。与以前的方法相比，我们的生成器通过迭代抛光模式利用子句中的相邻字符，这是一种新颖的方法。

综上所述，我们的贡献如下。首先，我们提出了一系列基于神经网络的对偶模型。本文提出了一种新的系统框架，将先行子句引入对联对中，并将其后子句输出到对联对中。我们将attention机制融入到对联的生成过程中，处理对联的特殊特征，如两个分句中的对应字。首次提出了一种新颖的抛光模式，利用相邻字符的局部模式对生成的对联进行迭代优化。最后一次迭代的后续条款草案将作为附加信息，生成后续条款的修订版本。

本文的其余部分组织如下。第2节简要总结了对联生成的相关工作。然后第3节和第4节给我们展示了方法范式的概述，然后详细介绍了神经模型。实验结果和评价见第5节，结论见第6节。

2相关工作

基于模板的中国对联生成(Zhang and Sun, 2009)或统计翻译(Jiang and Zhou, 2008)的研究非常少。中国对联生成任务可以看作是两句诗生成的简化形式(Jiang and Zhou, 2008)。给定诗的第一行，生成器应该相应地生成第二行，这是一个类似于对联生成的过程。我们认为中国诗歌的自动生成是一个密切相关的研究领域。注意在对联生成和诗歌生成之间还有一些区别。生成与给定先行子句匹配的后续子句的任务比生成一首诗的所有句子的定义更为明确。而且，并不是所有的诗的句子都需要遵循对联的约束。

在计算机辅助诗歌生成领域有一些正式的研究。来自不同国家的科学家通过不同的方法研究了用自己语言自动写诗的方法:1)遗传算法。Manurung等(2004;2011)提出基于状态搜索的英语诗歌文本创作;2)统计机器翻译(SMT)。Greene等(2010)提出了一种跨语言诗歌从意大利语到英语的翻译模式;3）基于规则的模板。Oliveira(2009;2012)提出了一种基于西班牙语语义和语法模板的诗歌生成平台系统，提出了一种基于用户查询相关规则短语搜索的日本传统俳句再现系统(Tosa et al.， 2008;Wu et al.， 2009)。Netzer et al.(2009)提出了另一种使用单词关联规则生成俳句的方法。

计算机辅助中国诗歌创作。现在有几个中国诗歌生成器可用。Daoxiang1系统基本上依赖于手动模式选择。系统维护一个术语列表，它是被手动创建的并且与预定义关键字相关，系统将术语作为诗歌随机插入所选的模板中。这个系统很简单，但是随机选择的术语会导致句子不顺畅。

Zhou et al.(2010)采用一种基于色调编码和状态搜索的中文诗歌生成遗传算法。他 et al.(2012)考虑结构模板，将对联机器翻译范式(Jiang and Zhou, 2008)从两行对联扩展到四行诗。Yan et al. (2013;2016)提出了一个生成诗歌的概括框架。近年来，随着神经网络的蓬勃发展，提出了一种基于递归神经网络的语言生成方法(Zhang and Lapata, 2014):生成或多或少是一个翻译过程。给定前面的句子，系统生成这首诗的下一个句子。

我们还简要介绍了深度神经网络，它对NLP有很大的改进。一系列的神经模型被提出，如卷积神经网络(CNN) (Kalchbrenner et al.， 2014)和递归神经网络(RNN)(Mikolov et al.， 2010)，有或没有门控递归单元(GRU) (Cho et al.， 2014)和长短期记忆(LSTM)单元(Hochreiter and Schmidhuber, 1997)。我们进行了一个初步的研究，设计神经网络结构的对偶生成问题。首次提出了一种对联生成过程的抛光模式，并将其与注意机制相结合，以满足对联约束条件，具有一定的创新性。

3概述

生成对联的基本思想是构建先行子句的隐式表示，然后相应地生成后续子句，如图2所示。这样，我们的系统就以编码-解码的方式工作。对联产生的单位是汉字。

(a)序列对联的产生。 (b)用注意机制产生对联 (c) . .使用抛光模式生成对联。

图2:对联生成的三个神经模型。更多细节将在第4节中介绍。

问题公式化。我们定义以下公式:

bull;输入。给定先行子句A ={x1, x2，hellip;， xm}，Xi V，其中Xi是一个字符，V是词汇表，然后我们学习先行子句A的抽象表示

bull;输出。我们根据A生成一个后续子句S = {y1, y2，hellip;， ym}，表达语义连贯。我们有一种更具体的yi v，每个字符yi与A中相应的字符xi相协调，这是由对联约束决定的。

如前所述，我们将输入子句编码为一个隐藏的向量，然后将该向量解码为一个输出子句，这样两个子句实际上就是一对对偶。由于对偶生成具有特殊的特点，我们针对不同的问题提出了不同的神经模型。所提出的模型是逐步扩展的，这样最终的模型就能够处理生成对联的复杂问题。我们首先从高层次的描述中引入这些神经模型，然后对其进行更详细的阐述。

序列对生成。模型接受输入子句。我们使用一种基于字符的递归神经网络(RNN)来捕捉子句的含义。这样我们就得到了一个表示先行子句的向量。然后使用另一个RNN将输入向量按字符生成方式解码到后续子句中。基本上，这个过程是一个通过编码和解码的序列到序列的生成，它基于子句的全局级别。我们在图2(a)中展示了序列对的生成图。

用注意力机制产生对联。在一对对联中有一种特殊的现象:前句和后句中同一位置的字，即xi和yi通常具有某种关系，例如“耦合”或“配对”。因此，我们应该在神经网络模型中对xi和yi之间的这种一对一的相关性进行建模，以进行对的生成。近年来，人们提出了一种注意机制，允许译码器动态选择不同权重的输入序列的不同部分并进行线性组合。基本上，注意机制对输入和输出之间的位置对齐进行建模，因此可以将其视为一个局部匹配模型。此外，音调编码问题也可以由成对的注意机制来解决。将注意机制扩展到序列对生成模型如图2(b)所示。

用于生成的抛光模式。对联是一种艺术形式，艺术通常需要打磨。与以往神经模型中传统的单通道生成不同，我们所提出的对联生成器将能够对生成的对联进行一次或多次迭代，以改进其措辞。该模型与顺序生成模型本质上是相同的，只是前面生成的子句草案的信息表示将再次用作输入，作为语义一致性的附加信息。原理如图2(c)所示:上一个迭代生成的草稿将被合并到下一个迭代生成抛光对联对的隐藏状态中。

综上所述，我们介绍了三种生成对联的神经模型。每一个修正的模型都旨在解决一个对联生成的问题，这样系统就可以尝试模仿人类生成对联。我们将在第4节中进一步详细阐述这些神经模型。

4神经生成模型

4.1顺序对的产生

序列对生成模型基本上是一种使用编码和解码的序列对序列生成方式(Sutskever et al.， 2014)，如图3所示。我们使用一个递归神经网络(RNN)来迭代地获取一个输入的先行子句A的字符序列x1, x2，hellip;， xm .所有字符都使用它们的嵌入向量化(Mikolov等，2013)。对于每一个字符,如果RNN分配一个隐藏的状态si,这是依赖于当前角色的嵌入xi和siminus;1之前的状态。。由于对联对中的每个子句通常不会太长，因此使用带有基本交互的普通RNN就足够了。

编码公式如下:

s_i = f (W_hs_iminus;1 W_xx_i b)

(1)

x是向量表示(即，嵌入)的字符。W和b是权重和偏差的参数。f(·)为非线性激活函数，本文使用ReLU (Nair and Hinton, 2010)。对于解码RNN中的隐藏状态hi，我们有:

h_i = f (W_xx_iminus;1 W_hh_iminus;1)

(2)

4.2用注意力机制产生对联

如前所述，对联中有一种特殊的现象，即前句和后句中同一位置的文字具有一定的关联性，所以这两个句子在某种程度上可能看起来是“对称的”。在对联生成模型中引入注意机制。注意机制以静态或动态的方式协调输入序列的不同位置(Shang et al.， 2015)。为此,我们引入一个隐藏的耦合矢量ci =sum;malpha;ij sj。j = 1耦合向量线性组合来自前一

资料编号：[3873]

您需要先支付 30元 才能查看全部内容！立即支付

注册

找回密码