登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 毕业论文 > 计算机类 > 软件工程 > 正文

基于标注的实体和关系的联合抽取研究毕业论文

 2020-02-19 06:02  

摘 要

近年来,随着信息技术的快速发展,生物医学文献的数量爆炸性的增长,想要获得文献中的医学关系也逐渐变得困难。因此,人们逐渐开始使用自然语言处理的方法来获取生物医学文献中的医学关系,所以这方面也逐渐成为自然语言处理的重要领域,在众多的生物医学的关系种类中,蛋白质之间关系一直以来都被广泛的研究。因为蛋白质之间的相互作用对于理解生物的过程有着至关重要的作用。对于蛋白质关系抽取,现在主流的方法是利用机器学习的方法或者利用深度学习的方法。 深度学习利用模型自动从语句中抽取特征,效果比较好。而机器学习需要我们自己从数据集中寻找特征,然后在进行实验。特征提取是机器学习算法中最关键的一个步骤,在提取特征之前,我们需要先对数据集进行仔细的观察和分析,找到正负样本之间的区别,然后再把这些“区别”作为特征提取出来。虽然步骤略微繁琐,但是机器学习算法更容易让人理解,解释性更好,本实验使用的方法即为机器学习的方法,而且还在不同的机器学习算法之间做了对比实验。

本文的主要任务为蛋白质关系抽取,使用的数据集是基于五个公开标注的语料库:AImed、BioInfer、HPRD50、IEPA、LLL。在对数据进行预处理之后,就进行了特征的提取,通过对语料库中数据的观察和分析,我们提取了不同的特征,并且分析了每个特征对实验结果的影响。为了验证得到的特征是否具有普遍性,我们使用了不同的算法进行了实验。

关键词:蛋白质关系抽取;支持向量机;机器学习;

Abstract

In recent years, with the rapid development of information technology, the number of biomedical literature has exploded, and it has become difficult to obtain medical relations in the literature. Therefore, people gradually began to use natural language processing methods to obtain medical relationships in the biomedical literature, so this aspect has gradually become an important field of natural language processing. In many biomedical relationship types, the relationship between proteins has been Both have been extensively studied. Because the interaction between proteins plays a crucial role in understanding the processes of living things. For protein-relational extraction, the current mainstream approach is to use machine learning methods or to use deep learning methods. Deep learning uses models to automatically extract features from statements, and the effect is better. Machine learning requires us to look for features from the data set and then experiment. Feature extraction is one of the most critical steps in machine learning algorithms. Before extracting features, we need to carefully observe and analyze the dataset to find the difference between positive and negative samples, and then use these "distinctions" as feature extraction. come out. Although the steps are slightly cumbersome, the machine learning algorithm is easier to understand and explain better. The method used in this experiment is the machine learning method, and a comparative experiment is also performed between different machine learning algorithms.

The main task of this paper is protein relationship extraction. The data set used is based on five publicly annotated corpora: AImed, BioInfer, HPRD50, IEPA, LLL. After the data is preprocessed, the feature is extracted. By observing and analyzing the data in the corpus, we extract different features and analyze the influence of each feature on the experimental results. In order to verify whether the obtained features are universal, we have experimented with different algorithms.

Key Words:Protein relationship extraction; support vector machine; machine learning.

目录

第一章 绪论 1

1.1 研究背景及意义 1

1.2 国内外研究现状 2

1.3 本课题研究内容 3

1.4 本文组织结构 4

第二章 自然语言处理与机器学习方法理论介绍 5

2.1 自然语言处理 5

2.1.1 词性标注 POS Tagging 5

2.1.1 句法解析 Stanford Parser 6

2.2 机器学习 8

2.2.1 Logistic Regression 8

2.2.2 支持向量机(Support Vector Machine) 11

第三章 特征提取 15

3.1 关系词特征 15

3.1.1 关系词过滤规则 15

3.1.2 数量特征 16

3.2 距离特征 17

3.3 句法特征 17

3.3.1 Height 18

3.3.2 POS路径 18

第四章 实验设计与结果分析 19

4.1 数据集获取及预处理 19

4.1.1 数据集获取 19

4.1.2 数据预处理 19

4.2 评估指标 19

4.3 实验流程 22

4.4 实验结果及分析 23

4.4.1 不同的特征之间的对比 23

4.4.2 不同的算法之间的对比 25

4.4.3 原因分析 27

5.1 总结 28

5.2 展望 28

参考文献 29

致 谢 31

第一章 绪论

1.1 研究背景及意义

近年来,生物医学研究出版物中信息的提取一直是大家激烈研究的主题, PubMed等文献数据库提供了在线界面,研究人员可以通过在线界面访问生物医学领域数百万篇的研究论文,并为许多人提供了摘要以及一些论文。因此,很多研究人员就能够直接获得大量的数据来进行研究。 然而,想要定位到有用信息可能不是那么容易,简单的关键字搜索仍然会返回大量的结果,这些结果需要我们花费大量的时间去查找需要的信息。针对这种情况,我们需要开发出工具,使用这个工具可以自动的从文献中提取有用的信息。

随着人工智能技术的快速发展,人们开始使用自然语言处理的方法从生物文献中提取生物医学关系 ,这也成为了自然语言处理的一个重要领域([19])。而在这些生物医学的关系种类中,人们尤其关注蛋白质之间的关系,一直以来都被大家广泛的研究。 蛋白质之间的相互作用是生物过程中至关重要的一个环节,提取蛋白质的关系有助于我们理解生物过程。 为了解决这个问题,人们提出了多种方法,不过都没有取得特别好的效果,而且这些方法并不能很好的应用到其他的数据集上([12])

最常见的问题是二元关系的提取,系统会识别句子中哪些蛋白质对之间具有相关的生物学关系。目前主流的解决方法有机器学习方法或者是深度学习的方法。 深度学习的方法需要利用模型从数据集中自动的提取特征,准确率比较高,但是不容易理解,而且花费的时间比较长。相比之下,机器学习的方法就更容易被大家所理解,所以我们更倾向于使用机器学习的算法提取蛋白质关系。

大型注释PPI语料库(如Aimed。BioInfer、HPRD50等)的公开可用性为使用机器学习自动构建PPI提取系统提供了机会。目前主要的困难是如何为学习者提供区分交互和非交互所需的上下文和句法信息。为了解决用于国家PPI的自然语言表达的模糊性和可变性,最近的几项研究侧重于生物医学领域的NLP工具的开发,改编和应用。现在可以免费获得许多高质量的特定领域工具,包括Lease和Charniak引入的完整解析器。此外,还引入了一些从短语结构解析到依赖结构的转换,这些转换使得单词之间的关系更直接可访问。这些包括转换为表示,例如斯坦福依赖方案,这些方案是为信息提取目的而明确设计的。但是,想要实现这种结构还需专门的特征和内核。

如果我们使用机器学习的方法进行实验,核心步骤仍然是选择合适的特征,合适的特征可以让模型的性能达到最高。 虽然现在流行的深度学习可以自动的抽取特征,但是它的特征抽取有时不一定是最合适的。 在有些情况下还是需要通过对数据集的观察然后手动的抽取特征。 想要得到效果比较好的模型,那么就要选择比较恰当的特征。

1.2 国内外研究现状

严格的说,蛋白质关系抽取应该是实体关系抽取之下的子任务,实体关系抽取是信息抽取的和核心环节, 对句子语义理解以及实体语义知识库构建有着重要的作用,也是自然语言处理的一个比较经典的问题。 回顾其发展的历程,已经总结出了很多的方法来完成这个任务。而且随着学科的不断发展,大家也逐渐开始尝试从生物医学文献中提取蛋白质之间的关系。

基于规则的方法是前几年发展比较成熟的抽取蛋白质关系的方法,主要的思想是模式匹配,根据我们已经知道的信息提前指定好详细的规则, 然后进行规则匹配,虽然基于规则的方法可以获得较高的准确率,但是基于规则的方法泛化的能力相对较差,而且定义规则时需要花费我们大量的精力。

近年来,随着智能技术的快速发展,机器学习以及自然语言处理方面都有了很大的进展,人们也提出了越来越多的方法来从生物医学文献中抽取蛋白质之间的关系。 许多基于机器学习的方法也逐渐开始使用自然语言处理方面的技术,例如浅解析或者是完全解析, 对于浅解析来说,完全解析会产生更加复杂以及全面的句法信息,所以,在从文献中提取蛋白质的关系时, 我们更加倾向于使用完全解析。 对于完全解析,我们现在常用的工具为Stanford Parser(后面会详细介绍这个工具)。使用这个工具,句子经过处理之后会形成一颗句法树。在这种情况下,蛋白质之间的关系抽取一般被视为二分类任务,对于二分类任务, 我们需要合适的特征以及机器学习的算法,这些特征是来源于句子或者是句法结构。找到特征之后,把这些特征组合起来,构成输入特征向量,然后在使用分类器训练模型。

对于从生物文献中提取蛋白质关系这个任务来说,随着人们的不断研究,已经提出了许多的特征和机器学习的方法。 从特征类型来说,主要分为三组,第一组的重点在于词汇以及单词的上下文功能。 Mooney和 Bunescu设计出一个子序列核,这个方法会使用句子中的一部分特征,主要包括第一个蛋白质之前和两个蛋白质之间以及第二个蛋白质之后的部分。 把这三个部分的特征结合起来组成特征向量,然后训练处模型。 Giuliano等人扩展了这个方法,他们使用词袋模型,并且增加了上下文内核方法,他们的结果比前人的好一点。 基于此,Katrenko以及Adriaans又提出了一种新的方法,这个方法主要在依赖树的预定义级别中找到合适的信息。 Kim等人 2008年又提出了一个新的方法来完善之前的工作,这个方法主要寻找两个蛋白质之间的最短依赖路径以及词性特征。 这个方法比之前的方法有了很大的提升。随着不断的深入学习,人们想出了越来越多的方法来提取蛋白质之间的关系。 在研究整体效果的同时,研究人员也研究了各种特征类型对蛋白质关系提取效果的影响。经过研究发现,句法特征确实能够对PPI系统整体性能的提升有帮助。 Kim等人还证明,如果两个特征类型具有重叠而不是互补的效果,那么舍弃其中一个特征类型可以是计算更加有效而且可能是挖掘算法更加的健壮。

尽管已经提出了这么多的方法,但是仍然存在找到用于提取 PPI最合适特征的问题,添加更多的特征可能会使性能有所提高, 但是添加特征的同时还有可能引入噪声,这样就会对实验的结果有负面的影响。 所以,在选择特征的时候还需要我们更加注意。 随着深度学习的发展,人们也不仅仅限于使用机器学习的方法来进行研究了,机器学习算法最重要的部分是抽取特征, 如果使用了深度学习的方法,我们就可以省去特征这一步,深度学习可以自动的帮助我们去提取句子中最合适的特征, 然后得到比较好的结果。所以很多研究人员都开始尝试深度学习的方式去提取蛋白质之间的关系。 虽然深度学习的效果比传统的机器学习好很多,但是深度学习有时更类似于一个黑盒子, 让人不是很明白其中细节的部分,不利于刚开始接触这方面知识的初学者。 本文使用的便是传统的机器学习方法,可以帮助人们很好的理解每一步的操作,也更加有利于我们的学习。

1.3 本课题研究内容

根据上文中的介绍,我们可以得知对于蛋白质之间关系的提取,机器学习的方法仍然算是一个比较主流的方法。 而且手动的提取特征更能清晰的理解这个过程。 实验使用的数据集是生物信息方面公开的语料库(Aimed,BioInfer等),通过对数据集中的句子进行观察和比较,选择合适的特征作为输入。 对于每一个特征,我们都会进行对比实验,观察这个特征是结果的贡献值有多大。 Stanford Parser也是我们实验中用到的一个重要工具,使用它对数据集中的句子进行解析,得到语法树,使用程序解析这个语法树, 就可以得到实体一二的连接点到各自的 pos路径,这个 pos路径是很重要的一个特征。 对实验的最后结果有很大的影响。

我们会采用不同的机器学习方法( SVM, Logistic Regression等)去训练选择的特征, 这样就可以比较出不同的方法之间的区别,选择蛋白质关系抽取最合适的方法。 方法确定之后,需要在不同的语料库上做实验,也可以验证我们所抽取的特征以及选择的方法是否合适。

1.4 本文组织结构

本文针对蛋白质关系抽取的研究现状和意义进行了论述,概括了蛋白质之间关系抽取的重点、难点以及发展过程, 简单介绍了自然语言处理和机器学习的的理论知识,分析和比较了不同特征和方法的实验结果, 并对实验结果进行了比较。 最后得出了我们的结论。

第一章为绪论部分,介绍了本研究任务来源,详细描述了该研究背景及意义,概括了蛋白质抽取任务中的国内外研究现状。

第二章介绍了本实验用到的自然语言处理和机器学习算法的一些预备知识,包括对词性标注、 Stanford Parser工具的介绍,以及对机器学习中常见的分类算法进行原理和算法描述,比如支持向量机( Support Vector Machine), Logistic回归等, 为后文详细讲解本实验的工作原理做好知识铺垫。

第三章详细描述了实验的前期过程,包括数据的预处理,对句子的解析,以及对特征的选取。

第四章详尽的描述了实验的具体过程,包括特征的使用、方法的选择以及参数设置,得出并分析实验结果。

第五章对本实验进行了总结,对该模型优化和任务的深入研究提出了展望。

第二章 自然语言处理与机器学习方法理论介绍

2.1 自然语言处理

当下,人工智能正值发展的高峰期,越来越多的人开始转向这个行业,希望可以取得一番成就,自然语言处理是人工智能下的一个比较重要的子方向。 最近几年的发展也比较迅速。 人们研究自然语言处理最大的希望就是能够与机器进行对话的,毕竟机器是不懂中文或者是英文的。 如果能够做到和机器之间进行有效的对话,那么会节省我们大量的精力。 也会让自然语言处理的发展更上一个台阶。 想要与机器进行对话,那么就需要让机器理解我们句子的结构,让机器明白我们说的话到底是什么意思,那么我们就需要分析语句的各种结构,这些分析就是自然语言处理的各个子任务, 我们首先要做的就是把这些子任务做到最好。

本文研究的内容属于自然语言处理下面的子学科,在实现的过程中,会使用到词性标注( POS Tagging)和常见的自然语言处理解析工具( Stanford Parser),接下来会一一介绍它们。

2.1.1 词性标注 POS Tagging

词性标注(POS Tagging, part-of-speech tagging)又称词类标注,是指将文本(语料库)中的单词根据其定义和上下文标注为与特定部分相对应的过程,即它与短语、句子或段落中的相邻和相关单词的关系,也即确定每个词是名词、动词、形容词或是其他词性的过程。POS标记算法可以分为监督和无监督两种,另一种分类方法可将其分为基于规则和随机两种。具体分类可以用图2.1的树表示。

POS Tagging

supervised

unsupervised

Rule-based

nueral

Rule-based

stochastic

nueral

您需要先支付 80元 才能查看全部内容!立即支付

企业微信

Copyright © 2010-2022 毕业论文网 站点地图