登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 外文翻译 > 计算机类 > 计算机科学与技术 > 正文

基于改进知识图谱的简单问答系统外文翻译资料

 2023-04-13 10:04  

英语原文共 10 页,剩余内容已隐藏,支付完成后下载完整资料


基于改进知识图谱的简单问答系统

摘要

知识图谱包含结构良好的信息数据,因此利用知识图谱将有帮助于问答任务。然而,由于复杂的谓词提取和候选池生成,训练基于知识图谱的简单问答系统计算成本公认的高昂。此外,现有的基于卷积神经网络(CNN)或循环神经网络(RNN)的方法高估了谓词特征的重要性,从而降低了性能。为了解决这些问题,我们设计了一个既节省时间又节省资源的框架。我们使用弱 n-gram 来平衡候选池生成中的召回和候选池大小。对于谓词提取,我们提出了一个软直方图和自我注意 (SHSA) 模块,该模块的作用是通过特征矩阵保留问题的全局信息。同时可以让 RNN 模块简化为谓词表示中的简单前馈网络。我们还设计了一种汉明窗下界标签编码算法来对较低维度的标签表示进行编码。在基准数据集上的实验表明,我们的方法优于最终目标的优秀成果,并且在显著修剪的候选空间中获得更好的召回率。

关键词 知识图谱 问题回答 向量映射 神经网络

第一章 绪论

一阶事实性问题是一种简单问题,它以诸如什么、何时、在何处或什么之类的词开始,并且它可以用单一的主语-谓词-对象语句来回答。这类问题在通用搜索引擎和垂直搜索引擎中都很普遍。如[19]所示,超过90%的用户生成的自然语言问题都是康卡斯特X1平台上的一级问题,该平台拥有数百万的每日用户。知识图谱(KG)[2,20]是帮助完成问题回答(QA)任务的强大工具。与从非结构化语料库中提取答案的基于语料库的QA系统相比,基于KG的QA系统通过查询结构良好的KG来回答问题。特别是,一个一跳的KG查询就足以处理一个一阶问题。

越来越多的最先进的一阶事实问答系统将神经网络与KGs结合起来[6,15, 23,24,]。这类系统包含两个主要模块:1)候选池生成,即将一个问题的主题相关短语贴上标签,并将它们与kg中的实体进行匹配,以生成一个候选池;2)谓语提取,即提取这个问题的谓词。尽管最近取得了重大进展,但仍存在许多挑战。

对于候选生成,一个常见的做法是将一个问题的所有n-grams与KG中的实体进行匹配,从而生成一个较大的候选池[3,23]。或者,使用“集中剪枝”只提取与主题相关的短语的办法,但它使用了一种严格的匹配算法,减少了对真实实体的召回率。对于谓词提取,可以使用[24,25]中最先进的方法,如基于递归神经网络(RNN)和基于卷积神经网络(CNN)的方法,强调谓词特征的设计,并经常降低问题表示的维数以与谓词匹配。这可能会扭曲表征的分布,从而损害性能。

本文旨在解决上述挑战。对于候选池的生成,为了在召回率和候选池大小之间取得平衡,我们提出了一种新的n-gram字符串匹配策略。在谓词提取方面,我们提出了一种基于软直方图和自注意(SHSA)的神经网络模型,其优点如下:为了构建问题表示,基于自注意的方法[21]作为特征的平滑滤波器,以缓解RNN中的长距离依赖问题。为了构建谓词表示,我们得到了一个重要的结论,一个具有非线性激活的单层前馈神经网络已经足以处理词语级谓词表示,而不是在现有系统中使用的昂贵的基于RNN的方法。

此外,在谓词提取中,由于kg包含大量用于分类的谓词类型,一个关键的任务是实现一个对谓词的有效向量映射。为此,我们设计了一种标签向量映射方法,通过最大化任意两个谓词之间的代码间距,来在较低的维数中编码标签。

我们的贡献总结如下:

  • 我们提出了一种新的一阶因数QA系统,该系统结合了一种新的n-gram字符串匹配算法和一种新的SHSA谓词提取模型。这个系统不仅比现有的方法要简单得多,而且在学习阶段需要的资源和时间也明显更少。
  • 我们设计了一种汉明下界标签编码算法,通过最大化任意两个谓词之间的距离来实现标签的鲁棒性和高效的向量映射。
  • 我们用真实世界的数据集广泛地测试了我们的解决方案,并证明了与现有的系统相比,它可以在产生更少的成本的同时实现更好的性能。

第二章 相关工作

近年来,基于KG的简单(一阶事实)问题回答(KGQA)系统引起了人们的广泛关注。该领域的一个重要研究方向是研究基于语义解析的方法[16,22],它将问题转化为结构化的KB查询。另一种研究方向是通过基于向量映射的方法[6,10,15,24,25]来解决这个问题,该方法利用深度学习模型来学习问题和KG元素的语义表示。我们的工作集中在第二种方法的研究上,自从 [3]开发了他们的开创性工作并发布了包含101k个人类注释问题的数据集简单问题以来,这些研究已经取得了显著的进展。

在早期的研究中,Yih等人[23]使用字符三元组模型作为问题和关系方面的输入,并应用了一个匹配问题和谓词序列的CNN模型。Golub和He [10]提出了一种具有注意力增强架构的角色级方法,即将注意力发展到选择性地关注长序列的片段。然而,由于在KGQA系统中,每个输入序列只需要做两个预测,这使得输出规模非常小,导致注意机制的影响有限。

Dai 等人[6]研究了一种基于单词级RNN的方法,该方法使用RNN的最终隐藏状态来表示一个问题,并首先提出了“集中剪枝”,通过序列标记模型来减少候选池中的噪声。然而,这项工作遇到了语义信息丢失和典型的RNN远程依赖问题,我们在本文中旨在解决这个问题。Lukov等人[12]提出使用实体的外度来进行排名,但也存在与[6]相同的固有缺点。

Yin等人[24]提出将一个问题的所有n-gram与KGs中的实体进行匹配,并使用CNN来表示问题和谓词。该匹配策略是无效的,因为它首先匹配所有可能的n-grams,然后根据最长连续的公共子序列(LCCS)规则对候选实体进行排序。

Yu等人[25]提出了一个残缺BiLSTM模型来训练一个谓词提取模型。此外,他们将单词级信息与谓词的谓词级信息结合起来,从而充分利用了KGs提供的资源。尽管如此,通过RNN计算谓词表示的高计算复杂度却降低了性能增益。

Qu等人[15]提出了一种基于相似性矩阵的CNN模型(arsmcnn)的注意递归神经网络,通过获取语义级和文字级的相似性来提高检测性能。但是,他们使用了集中剪枝和严格的部分匹配来生成候选池,这限制了候选池生成的性能,因为正确的谓词可能不严格匹配。

以往的大多数工作都使用双向RNN(Bi-RNN)来学习问题的分布式表示,这些问题存在长距离依赖问题(例如,简单问题数据集中最长的一阶问题最多包含35个单词)。在本文中,我们开发了一种自我注意机制来缓解问题,并平滑问题中每个标记的特征。此外,我们将严格匹配与部分匹配相结合,减少了候选池的平均大小,提高了搜索效率。而且采用简单的非线性激活单层前馈神经网络来表示词级谓词,与现有的基于RNN的方法相比具有良好的性能。我们将在论文的其余部分中介绍进一步的细节。

第三章 总述

KG由一组事实组成,每个事实都由三元组表示如(主语,谓语,宾语),表示为(s, p, o)。KGQA系统的目的是从一个问题q中提取主语s*和谓词p*,然后从KG中搜索出 s = s* 和 p = p* 且返回答案为o的三元组(s,p,o)。假设C是给定KG的一个子KG且表示为问题q的搜索空间。KGQA问题可以用公式表示:

获得主题预测的分布P(s|p,q)依赖于实体消除歧义,这是一个因需要大量注释数据的语料库而公认困难的任务,因此被认为是非常不简单的。或者,我们可以过滤掉那些与p*不并发的候选受试者(由谓词提取模块确定),然后根据预定义的“重要性”分数对其余的主语进行排序。然后选择分数排名最高的主语为s*.因此,KBQA系统的准确性依赖于候选池生成(即C的生成)和谓词提取(即评估概率P(p|q))的两个子系统的有效性。接下来的部分将了我们为这两个子系统提出的解决方案。图1展示了KBQA框架的概述。

图1 框架概述。资源描述框架(RDF)引擎通过谓词提取和主题预测来连接用户和知识图之间的桥梁

第四章一个简单KGQA的新框架

本节解释了我们的方法的细节和特点,重点是候选池的生成和谓词提取,包括汉明下界(HLB)标签向量映射算法,该算法将训练标签编码为向量映射表示。

生成具有n-gram字符串匹配的候选池

本节介绍了一种n-gram字符串匹配方法来生成候选池c。让G(q)表示包含给定问题q中所有可能的n-gram的集合。候选池生成过程可以用公式表示为:

其中P(g|q)捕获n-gram得分模型,K为原始KG,M F(s,g*)是一个匹配函数,用来检测知识图中的主语s是否与n-gram g*匹配。

如[6]中的n-gram g*,由双向门控递归单元(Bi-GRU)结合线性链条件随机场[4]计算,形成一个序列标记网络来参数化P(g|q)。

实体匹配函数MF(s,g*)定义了n-gram 匹配过程:

  • 在n-gram g*与KG中的实体名称或别名之间执行严格的字符串匹配,并将这些匹配的实体添加到候选集E中。
  • 如果E为空,则找出与主语相关的短语g*部分匹配的实体,并将它们添加到E中。
  • 如果E仍然为空,设N = size(g*)-1并执行一个循环,该循环迭代生成g*的所有可能的n-grams GN,并在gNisin;GN与KG中的实体名称或别名之间运行严格匹配。如果没有找到匹配的实体,则N减1并继续循环,否则,将它们添加到E中并中断循环。

例如,序列标记网络提取了一个查询的三个单词与主题相关的短语g*,可以将其分割为三个一元组、两个二元组和一个三元组。假设KG只有一个实体e,我们将首先得到n-grams,即Ge,然后按顺序回答以下问题:

  • 主语相关短语中最长的n-gram是否等于e的名称/别名?
  • 三元组是否在Ge 之中?
  • 第二长的n-gram(二元组)是否等于e的名称/别名?
  • 第三长的n-gram(一元组)是否等于e的名称/别名?

在满足某一标准或KG中没有匹配的实体之前,此过程不会停止。然后,我们可以获得从候选实体为中心的知识子图中提取的候选谓词。

n-gram匹配策略在生成的候选池的高召回率和低平均大小之间取得了平衡。假设存在许多与主语相关短语g*的可能扩展(因为问题可能很长),我们牺牲一些内存空间,通过预先存储到知识图谱中来提高时间效率。为了减少候选池的平均大小,我们在g*的所有可能的n-grams GN与实体的名称/别名之间进行了严格的匹配,而不是部分匹配。在接下来的章节中,我们的实验结果将证明,与最前沿的方法相比,这种策略可以显著减少候选池的大小,同时实现可观的召回率。

预测提取模块

给定一个问题q,谓词提取可以形式化为P(p|q),记为:

其中Cq是生成的问题q的候选池,vtheta;(p , q)计算候选谓词p和问题q之间的相似性得分,theta;表示系统参数。从而得到一个最优P(p|q)等价于参数化vtheta;(p , q).因此,我们提出了使用基于自注意神经网络的软直方图来参数化评分函数。该模型如图2所示,主要由问题表示、谓词表示和评分函数三个组成部分组成。

图2 谓词提取的软直方图和自注意(SHSA)模型

问题表示

大多数最先进的解决方案使用一个向量,其维数与RNN最后一层RNN的大小(a.k.a.hidden大小)相同,用来表示问题。它们通常存在对表征学习不足的问题,从而引发了RNN中典型的长距离依赖问题。因此,我们以矩阵的形式来表示问题,并采用自注意机制来自动提取问题的特征。Devlin等人已经证明了自注意原型可以有效地应用于大多数NLP任务[7]。

对于系统输入,采用Glove [14]对问题标记的词向量进行预训练。为了避免主语对输入的干扰,且由于构成实体的单词的语义通常不能用通用字典来表示,所以与主语相关的标记被一个特殊的标记lt;egt;所掩盖。通过glove获取向量映射集合Wqu=[w1qu, w2qu, hellip; , wnqu] ,然后输入进三个Bi-GRU层来获得[21]中的自注意句子向量映射,分别命名为Bi-GRUQ,Bi-GRUK 和 Bi-GRUV。 对应的输出矩阵为Q = [q1,q2,hellip;,qn], K = [k1,k2, ..., kn] ,和V = [v1, v2,..., vn]。B

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[589544],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

企业微信

Copyright © 2010-2022 毕业论文网 站点地图