基于知识图谱的知识问答系统构建文献综述

2020-04-15 17:30:20

1．目的及意义
1.1. 目的
随着时代的发展，人们对于系统的智能化要求越来越高。无数科学家为实现机器智能奉献了毕生的精力。那么怎样才叫实现了机器智能呢？对于这个问题，图灵于1950年在《Computing Machinery and Intelligence》提出图灵测试。图灵测试的核心在于如果人工智能系统能够与大多数人进行无障碍的交流而不被认为是机器，那么我们认为该系统是具有智能的。从那时起，实现能与人们进行正常交流的问答系统成为人工智能研究的重要方向。经过多年的研究，虽然语音处理、自然语言处理等技术取得了巨大的突破，然而这只是实现智能问答系统的第一步。要实现真正的智能问答系统，还需要有强大的知识库作为支撑。知识图谱以其表达的有效性和高度的扩展性，已成为现在知识库研究的重要组成部分。因此，本次毕业设计将构建出一个关于基金基本信息及其持股公司关系的问答系统，本系统利用基金基本档案与其持有哪家公司的股票作为主要信息构建知识图谱，并以该图谱作为知识库。该问答系统能满足以下要求：
(1) 使用知识图谱作为知识库，能利用知识图谱进行简单推理，使信息的检索更加智能。对用户提出的关于基金的基本信息及持股信息的问题作为解答。如某基金所属的公司是哪家？基金经理是谁？它对哪个公司持股多？该基金偏好于持有哪个行业的公司的股票？或者反过来问某个公司被哪个基金重仓了？
(2) 集成自然语言处理技术，让该系统不仅可以处理结构化数据，还能处理半结构化乃至非结构化数据。
(3) 集成爬虫技术，使用爬虫搜集网络上的数据作为数据集。
(4) 使用中文数据作为语料，对中文的支持更好。
1.2. 研究及应用
1.2.1. 起源
知识图谱的思想来源于语义网的研究。研究者希望网络上的资源通过语义而不仅仅是URL进行连接。为了实现这一想法，研究者想了很多种方法来表达知识，最终发展出了RDF。RDF类似于XML，每个知识点可以使用多个标签进行描述。但这种表达方式比较繁杂，需要耗费大量的人力来进行知识的描述。随着互联网的发展，大量非结构化的语义信息被产生出来，之前的知识描述方式已越来越不适应当今的大数据时代。为了解决这个问题，谷歌在2012年提出知识图谱这个概念。谷歌提出这个概念原本是想提高用户的搜索体验。随着知识图谱研究的深入，人们发现这不仅可以让信息展现得更加人性化，它还是一种能够更好地对海量信息进行组织和管理的方式。知识图谱从此成为了知识库研究的重要组成成分。
1.2.1. 知识提取研究
早期的知识库专注于建立基于规则的专家系统。特定领域的专家将自己多年来的实践经验总结成规则存到知识库中，从而能让系统根据规则回答问题。然而这种构建方式需要耗费大量的人力，同时扩展性不佳，并不能很好地管理和利用海量的互联网数据中所蕴含的知识。由此引发了知识抽取的研究。知识抽取主要包括实体抽取、关系抽取和属性抽取。实体抽取是在语料中自动抽取出命名实体，关系抽取指的是提取实体间的关系，而属性可以看作是实体与属性值间的一种特殊关系，所以属性提取也可视为一种特殊的关系提取。命名实体识别主要的方法有基于模板和字典的提取方法以及机器学习的方法。基于模板和字典的方法是根据数据集的特征构造出规则模板，然后利用规则和字典对实体进行识别。这种方法需要人为构造字典和规则，适用于细致的实体识别，但难以处理海量数据。机器学习的方法则依托于概率论，通过大量带标注的语料的训练，生成实体分类器，从而达到自动识别实体的目的。这种方法的好处在于不需要人为定义规则，适用于大规模语料，然而它却及其依赖数据集，需要耗费大量的人力进行标注。关系的抽取方法有开放式的实体关系抽取方法以及基于量推理的实体关系抽取方法。抽取属性的方法有两种：一是将从百科抽取出来的属性模式作为训练集，训练出属性分类器，然后将该分类器应用于开放域进行属性抽取；二是根据属性和实体的关系模式，构造提取规则，应用该规则到开放域中进行关系提取。
1.2.2. 知识表示研究
知识表示主要研究的是怎样将知识进行有效的表示。现在三元组的表示方法被研究者广泛接受，但将其应用于计算机的计算效率却不高。所以研究者开始寻找更高效的知识表示方式。近年来，以深度学习为代表的表示学习技术取得了重要的进展，可以将实体的语义信息表示为稠密低维实值向量，进而在低维空间中高效计算实体、关系及其之间的复杂语义关联，对知识库的构建、推理、融合以及应用均具有重要的意义。表示学习的代表模型有距离模型、单层神经网络模型、隐变量模型、神经张量模型、矩阵分解模型和翻译模型。翻译模型中的TransE模型是现在被广泛研究和使用的模型。在其基础上又发展出TransH模型、TransR模型、TransD模型、TransG模型和KG2E模型。
1.2.3. 知识推理研究
知识推理则是在已有的知识库基础上进一步挖掘隐含的知识，从而丰富、扩展知识库。在推理的过程中，往往需要关联规则的支持。现在研究者提出了基于逻辑规则的推理和基于图的推理。由于分布式表示的知识图谱可以通过运算来进行推理，所以也有部分研究者在进行这方面的研究。
1.2.4. 实际应用
知识图谱在多个领域得到应用。起到的作用主要是增强信息检索效果、提高推荐效果和提升问答的智能程度。如谷歌知识图谱、百度知心和搜狗知立方主要是在用户进行搜索时显示相关的资料，使得用户可以得到更为全面的信息。在推荐方面如阿里巴巴利用知识图谱聚合了数以千万的商品信息，从而在用户进行搜索时进行相关产品的推荐。而在问答方面，很多平台都引入了知识图谱。如苹果的语音助手Siri、百度开发的小度机器人等都利用知识图谱提升了问答效果。
1.3. 意义
现在以中文语料来构建的知识图谱应用还很少，所以通过进行本次毕业设计，我们可以探究知识图谱的相关算法在中文语料上的表现和知识图谱应用于中文所存在的困难。同时我们将知识图谱技术应用到问答系统中，将有利于提高信息系统的智能程度。除此之外，现行的知识图谱研究成果比较分散，我们难以看到这些技术集成到一起所能达到的效果。因此本次设计将关注于知识图谱技术的集成到一起，发现将它应用于实际中所存在的问题，并努力改进。这对于机器未来进行大规模自动学习具有重要的意义。

{title}

2. 研究的基本内容与方案

{title} 基本内容：做一个可以进行基金知识问答的系统。该系统主要是利用知识图谱对知识进行管理。用自然语言处理技术理解用户的问题，提取出用户想问的实体和关系。用提取出来的实体和关系构建检索语句，利用它们到知识图谱中进行检索。随后将返回的实体和关系再利用自然语言处理技术再拼接为语句，并将它作为答案返回给用户。
目标：该系统可以收集制定网站的基金信息，并利用这些信息对知识库进行必要的更新。该系统可以对用户就基金方面的自然语言提问进行处理，并就提问根据知识库进行回答。系统可以利用知识图谱进行简单的推理。
拟采用的技术方案及措施：本系统主要使用的技术有自然语言处理技术、爬虫技术、知识图谱技术。
数据方面：本系统最核心的数据来源是天天基金网的数据。该网站拥有大量基金的基本资料、每日行情、近期表现、所属的公司以及一些交易规则等信息。所以用给网站的信息作为基金知识问答的数据源可以基本满足用户所需要知道的信息，也就是说语料满足完备性的要求。但我们也考虑到现实问答中，会涉及大量常识性内容。现在的问答系统的回答让人感觉很生硬，其中一个很重要的原因是多数问答系统缺失常识。从这个角度来看，机器确实不够聪明，因为它们少学了很多常识。所以说数据源还想以复旦大学公开的百科三元组数据作为补充。如何利用好这一数据，是本次研究所面临的一道难题。
在数据采集方面，使用Python爬虫技术。如今的互联网就像一个巨大的数据库，要使用这个数据库，我们就要用到爬虫。天天基金网的数据展示在网站上，是半结构化的信息。所以我们需要使用爬虫将这些信息爬取下来，并将之规范化，整理为构建知识图谱所需要的三元组形式。除此之外，我们还希望使用爬虫爬取搜索引擎的数据。因为用户的问题是多样的，知识库并不能保证对于所有的问题都能找到答案，如果可以利用搜索引擎提供的数据，则系统的知识面将更加广阔。但这涉及到开放域的实体和关系抽取技术，实现难度比较大。
知识图谱方面：存在两大方向可选，一是知识嵌入技术，二是图技术。知识嵌入技术就是将知识图谱中的实体和关系全都转变为向量或矩阵的形式进行存储，而知识推理主要通过运算来实现。比较有代表性的模型是TransE及其衍生模型。虽然TransE在复杂关系的表达上表现不够好，但对于本系统来说，因为实体间的关系比较简单，所以使用TransE和PTransE仍有较大概率可成功。考虑到表示学习的理论发展时间比较短，技术仍不够成熟，所有存在技术知识表达和推理表现不佳的风险。图技术则是将知识图谱以图的形式进行存储，而知识推理主要依托于图算法和图模式的归纳。知识图谱的经典表示形式是三元组的形式，而三元组存储在图数据库是非常方便的，可以说是知识图谱最原始的含义。图技术以其简单性深受人们欢迎，然而其扩展性和运算效率不如嵌入技术高。对于本系统来说，因为我们的目标是进行基金知识的问答，而基金知识的关系比较简单，用图的形式进行存储是可行的。在进行推理时，需要对一些常见的图模式编写响应的推理模板，根据模板推理出实体间存在什么样的关系。这两种技术各有优劣，然而嵌入技术更适合计算机，自然也是人工智能的重要研究方向。所以本系统的设计先尝试使用TransE和PTransE作为知识图谱的核心技术，并意图技术作为防范TransE风险的候选项。图技术所选用的数据库为Neo4J。

语义理解方面：使用自然语言处理技术，如分词、词性分析、实体识别和文字转语音等。现在的自然语言处理技术经长期的发展，已经有许多成熟的库可以使用，所以本系统在自然语言处理是采用的库有Hanlp、JIeba以及百度自然语言处理的api，绥延自然语言处理的技术比较成熟，但每个库不一定可以在每个方面都做得很好，所以我们在进行处理时按实际情况需用效果最好、使用最为简单的库。可能用到自然语言处理的地方有数据的获取及清理、知识图谱的构建及推理、理解用户的问题以及生成回答。因为互联网的信息多为半结构化和非结构化信息，所以用自然语言处理技术进行信息的提取和清洗工作，使其变为三元组形式。而由于本系统是一个问答系统，所以理解问题和回答问题是自然语言处理着重要关注的地方。在理解问题上，要对问题进行分词，找出用户所关注的实体和关系，再用它们生成检索表达式，到知识库中进行检索。而回答问题则是对检索回来的内容进行进一步的处理，生成简单的回答。

本系统的亮点在于使用中文语料作为训练集，同时将原本分散的知识图谱技术进行集成。除此之外，还尝试将变动的数据集成到知识图谱中，探究如何对知识图谱进行更新。

3. 参考文献

Eric Matthes, Python编程从入门到实践，北京：人民邮电出版社，2016.
Feng M , Xiang B , Glass M R , et al. Applying Deep Learning to Answer Selection: A Study and An Open Task[J]. 2015.
胡芳槐. 基于多种数据源的中文知识图谱构建方法研究[D].华东理工大学,2015.
邢超. 智能问答系统的设计与实现[D].北京交通大学,2015.
刘峤,李杨,段宏,刘瑶,秦志光.知识图谱构建技术综述[J].计算机研究与发展,2016,53(03):582-600.
孙雨生,常凯月,朱礼军.大规模知识图谱及其应用研究[J].情报理论与实践,2018,41(11):138-143.
邵明光. 基于深度卷积网络的知识图谱补全模型[D].哈尔滨工业大学,2018.
Nie B , Sun S . Knowledge graph embedding via reasoning over entities, relations, and text[J]. Future Generation Computer Systems, 2019, 91:426-433.
苏佳林,王元卓,靳小龙,李曼玲,程学旗.融合语义和结构信息的知识图谱实体对齐[J].山西大学学报(自然科学版),2019(01):23-30.
王坤,谢振平,陈梅婕.基于图约简的知识联想关系网络建模[J/OL].智能系统学报,2019(06):1-10[2019-02-25].http://kns.cnki.net/kcms/detail/23.1538.TP.20181220.1920.005.html.
徐增林,盛泳潘,贺丽荣,王雅芳.知识图谱技术综述[J].电子科技大学学报,2016,45(04):589-606.
刘知远,孙茂松,林衍凯,谢若冰.知识表示学习研究进展[J].计算机研究与发展,2016,53(02):247-261.
官赛萍,靳小龙,贾岩涛,王元卓,程学旗.面向知识图谱的知识推理研究进展[J].软件学报,2018,29(10):2966-2994.
Wang Q , Mao Z , Wang B , et al. Knowledge Graph Embedding: A Survey of Approaches and Applications[J]. IEEE Transactions on Knowledge amp; Data Engineering, 2017, 29(12):2724-2743.
杨玉基,许斌,胡家威,仝美涵,张鹏,郑莉.一种准确而高效的领域知识图谱构建方法[J].软件学报,2018,29(10):2931-2947.
Bordes, Antoine amp; Usunier, Nicolas amp; Garcia-Duran, Alberto amp; Weston, Jason amp; Yakhnenko, Oksana. (2013). Translating Embeddings for Modeling Multi-relational Data. 2013.

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

注册

找回密码