登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 文献综述 > 电子信息类 > 电子信息工程 > 正文

跨领域命名实体识别技术研究与实现文献综述

 2020-04-14 05:04  

1.目的及意义

命名实体识别(Named Entity Recognition,NRE)作为自然语言处理的基础工作,其主要任务是识别文本中的人名、地名、组织机构名等专有名词和有意义的时间、日期等短语。NER作为信息抽取中重要的组成部分,其实别结果对于后续的关系抽取、语义角色标注、机器翻译等任务有很大的影响,能否正确识别出命名实体决定着信息的抽取率。命名实体识别任务通常和领域语料特征密切相关,这导致系统的泛化性较差。对于某些特定领域数据,探究如何在无标注或少量标注数据前提下识别命名实体,是自然语言处理任务的重要问题。毕业设计的目的就是掌握现有命名实体识别模型的建模理论、优化策略、训练方法和评价方法,提出具有一定创新性的跨领域命名实体识别方法,实现跨领域的命名实体识别系统,完成训练及效果评价。

命名实体识别当前并不是一个大热的研究课题,因为学术界部分认为这是一个已经解决了的问题,但是也有学者认为这个问题还没有得到很好地解决,原因主要有:命名实体识别只是在有限的文本类型(主要是新闻语料中)和实体类别(主要是人名、地名)中取得了效果;与其他信息检索领域相比,实体命名评测预料较小,容易产生过拟合;命名实体识别更侧重高召回率,但在信息检索领域,高准确率更重要;通用的识别多种类型的命名实体的系统性很差。

同时,中文的命名实体识别与英文的相比,挑战更大,目前未解决的难题更多。英语中的命名实体具有比较明显的形式标志,即实体中的每个词的第一个字母要大写,所以实体边界识别相对容易,任务的重点是确定实体的类别。和英语相比,汉语命名实体识别任务更加复杂,而且相对于实体类别标注子任务,实体边界的识别更加困难。现代汉语日新月异的发展给命名实体识别也带来了新的困难。

NER任务通常被当做序列标注任务,其中主要模型分为传统的统计机器学习模型和神经网络模型。常见的NER统计模型有HMM(隐马尔科夫模型)和CRF(条件随机场)等浅层模型,其中CRF模型效果不错,因此应用广泛。

近年来,深度学习在自然语言处理领域中取得重大的突破。与传统机器学习方法相比较,神经网络模型在命名实体识别任务中取得更好的结果。

{title}

2. 研究的基本内容与方案

{title}

2.1设计的基本内容:结合特征系统、机器学习和条件随机场等知识,设计一个NER系统,该系统最终实现跨领域命名实体的识别。输入条件:MSRA通用领域语料、特定领域数据(无标注或少量标注);功能和性能指标要求:特定领域语料F值达到65%以上。

2.2设计目标:研究无标注或者弱标注条件下命名实体识别方法和迁移学习方法,提出具有一定创新性的、工程上合理可行的跨领域命名实体识别系统设计方案,设计方案须综合考虑社会、健康、安全、法律、文化以及环境等有关因素。根据设计的方案,用C 编程语言实现跨领域的命名实体识别系统,并完成系统测试和效果评价;对结果做归纳总结,得出有意义的结论,并展望后续的研究工作。希望该系统可以取得较高的准确率P、召回率R和F值。输入条件:MSRA通用领域语料、特定领域数据(无标注或少量标注);功能和性能指标要求:特定领域语料F值达到65%以上。

2.3拟采用的技术方案及措施:运用自然语言处理、机器学习、深度学习和迁移学习等知识,结合特征工程、条件随机场和双向长短时记忆神经网络(BI—LSTM)等技术设计出NER系统,最后运用C 语言或者python语言或者java语言实现该系统。

3. 参考文献

[1] 林广和,张绍武,林鸿飞. 基于细粒度词表示的命名实体识别研究[J],中文信息学报,2018,32(11):62-71.

[2] 朱景东,杨立志,丁温雪等.基于主题标签和CRF的中文微博命名实体识别[J],华中师范大学学报(自然科学版),2018,52(3):316-321.

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

企业微信

Copyright © 2010-2022 毕业论文网 站点地图