基于知识图谱的知识问答系统构建开题报告

2020-02-20 10:31:41

1. 研究目的与意义（文献综述）

1.1. 目的
随着时代的发展，人们对于系统的智能化要求越来越高。

无数科学家为实现机器智能奉献了毕生的精力。

那么怎样才叫实现了机器智能呢？对于这个问题，图灵于1950年在《computing machinery and intelligence》提出图灵测试。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

2. 研究的基本内容与方案

基本内容：做一个可以进行基金知识问答的系统。该系统主要是利用知识图谱对知识进行管理。用自然语言处理技术理解用户的问题，提取出用户想问的实体和关系。用提取出来的实体和关系构建检索语句，利用它们到知识图谱中进行检索。随后将返回的实体和关系再利用自然语言处理技术再拼接为语句，并将它作为答案返回给用户。
目标：该系统可以收集制定网站的基金信息，并利用这些信息对知识库进行必要的更新。该系统可以对用户就基金方面的自然语言提问进行处理，并就提问根据知识库进行回答。系统可以利用知识图谱进行简单的推理。
拟采用的技术方案及措施：本系统主要使用的技术有自然语言处理技术、爬虫技术、知识图谱技术。
数据方面：本系统最核心的数据来源是天天基金网的数据。该网站拥有大量基金的基本资料、每日行情、近期表现、所属的公司以及一些交易规则等信息。所以用给网站的信息作为基金知识问答的数据源可以基本满足用户所需要知道的信息，也就是说语料满足完备性的要求。但我们也考虑到现实问答中，会涉及大量常识性内容。现在的问答系统的回答让人感觉很生硬，其中一个很重要的原因是多数问答系统缺失常识。从这个角度来看，机器确实不够聪明，因为它们少学了很多常识。所以说数据源还想以复旦大学公开的百科三元组数据作为补充。如何利用好这一数据，是本次研究所面临的一道难题。
在数据采集方面，使用python爬虫技术。如今的互联网就像一个巨大的数据库，要使用这个数据库，我们就要用到爬虫。天天基金网的数据展示在网站上，是半结构化的信息。所以我们需要使用爬虫将这些信息爬取下来，并将之规范化，整理为构建知识图谱所需要的三元组形式。除此之外，我们还希望使用爬虫爬取搜索引擎的数据。因为用户的问题是多样的，知识库并不能保证对于所有的问题都能找到答案，如果可以利用搜索引擎提供的数据，则系统的知识面将更加广阔。但这涉及到开放域的实体和关系抽取技术，实现难度比较大。
知识图谱方面：存在两大方向可选，一是知识嵌入技术，二是图技术。知识嵌入技术就是将知识图谱中的实体和关系全都转变为向量或矩阵的形式进行存储，而知识推理主要通过运算来实现。比较有代表性的模型是transe及其衍生模型。虽然transe在复杂关系的表达上表现不够好，但对于本系统来说，因为实体间的关系比较简单，所以使用transe和ptranse仍有较大概率可成功。考虑到表示学习的理论发展时间比较短，技术仍不够成熟，所有存在技术知识表达和推理表现不佳的风险。图技术则是将知识图谱以图的形式进行存储，而知识推理主要依托于图算法和图模式的归纳。知识图谱的经典表示形式是三元组的形式，而三元组存储在图数据库是非常方便的，可以说是知识图谱最原始的含义。图技术以其简单性深受人们欢迎，然而其扩展性和运算效率不如嵌入技术高。对于本系统来说，因为我们的目标是进行基金知识的问答，而基金知识的关系比较简单，用图的形式进行存储是可行的。在进行推理时，需要对一些常见的图模式编写响应的推理模板，根据模板推理出实体间存在什么样的关系。这两种技术各有优劣，然而嵌入技术更适合计算机，自然也是人工智能的重要研究方向。所以本系统的设计先尝试使用transe和ptranse作为知识图谱的核心技术，并意图技术作为防范transe风险的候选项。图技术所选用的数据库为neo4j。

语义理解方面：使用自然语言处理技术，如分词、词性分析、实体识别和文字转语音等。现在的自然语言处理技术经长期的发展，已经有许多成熟的库可以使用，所以本系统在自然语言处理是采用的库有hanlp、jieba以及百度自然语言处理的api，绥延自然语言处理的技术比较成熟，但每个库不一定可以在每个方面都做得很好，所以我们在进行处理时按实际情况需用效果最好、使用最为简单的库。可能用到自然语言处理的地方有数据的获取及清理、知识图谱的构建及推理、理解用户的问题以及生成回答。因为互联网的信息多为半结构化和非结构化信息，所以用自然语言处理技术进行信息的提取和清洗工作，使其变为三元组形式。而由于本系统是一个问答系统，所以理解问题和回答问题是自然语言处理着重要关注的地方。在理解问题上，要对问题进行分词，找出用户所关注的实体和关系，再用它们生成检索表达式，到知识库中进行检索。而回答问题则是对检索回来的内容进行进一步的处理，生成简单的回答。

本系统的亮点在于使用中文语料作为训练集，同时将原本分散的知识图谱技术进行集成。除此之外，还尝试将变动的数据集成到知识图谱中，探究如何对知识图谱进行更新。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

3. 研究计划与安排

2019年2月，背景资料的查询和确定重点参考的文献。

2019年3月，深入理解参考文献的内容，理解参考文献中知识图谱及问答系统的主要构建技术。

2019年4月，利用现有研究成果的技术，结合自己的思考和实际的语料，构建知识图谱。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

4. 参考文献（12篇以上）

Eric Matthes, Python编程从入门到实践，北京：人民邮电出版社，2016.
Feng M , Xiang B , Glass M R , et al. Applying Deep Learning to Answer Selection: A Study and An Open Task[J]. 2015.
胡芳槐. 基于多种数据源的中文知识图谱构建方法研究[D].华东理工大学,2015.
邢超. 智能问答系统的设计与实现[D].北京交通大学,2015.
刘峤,李杨,段宏,刘瑶,秦志光.知识图谱构建技术综述[J].计算机研究与发展,2016,53(03):582-600.
孙雨生,常凯月,朱礼军.大规模知识图谱及其应用研究[J].情报理论与实践,2018,41(11):138-143.
邵明光. 基于深度卷积网络的知识图谱补全模型[D].哈尔滨工业大学,2018.
Nie B , Sun S . Knowledge graph embedding via reasoning over entities, relations, and text[J]. Future Generation Computer Systems, 2019, 91:426-433.
苏佳林,王元卓,靳小龙,李曼玲,程学旗.融合语义和结构信息的知识图谱实体对齐[J].山西大学学报(自然科学版),2019(01):23-30.
王坤,谢振平,陈梅婕.基于图约简的知识联想关系网络建模[J/OL].智能系统学报,2019(06):1-10[2019-02-25].http://kns.cnki.net/kcms/detail/23.1538.TP.20181220.1920.005.html.
徐增林,盛泳潘,贺丽荣,王雅芳.知识图谱技术综述[J].电子科技大学学报,2016,45(04):589-606.
刘知远,孙茂松,林衍凯,谢若冰.知识表示学习研究进展[J].计算机研究与发展,2016,53(02):247-261.
官赛萍,靳小龙,贾岩涛,王元卓,程学旗.面向知识图谱的知识推理研究进展[J].软件学报,2018,29(10):2966-2994.
Wang Q , Mao Z , Wang B , et al. Knowledge Graph Embedding: A Survey of Approaches and Applications[J]. IEEE Transactions on Knowledge amp; Data Engineering, 2017, 29(12):2724-2743.
杨玉基,许斌,胡家威,仝美涵,张鹏,郑莉.一种准确而高效的领域知识图谱构建方法[J].软件学报,2018,29(10):2931-2947.
Bordes, Antoine amp; Usunier, Nicolas amp; Garcia-Duran, Alberto amp; Weston, Jason amp; Yakhnenko, Oksana. (2013). Translating Embeddings for Modeling Multi-relational Data. 2013.

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

注册

找回密码