登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 毕业论文 > 电子信息类 > 通信工程 > 正文

基于CRF算法的中文社交媒体的事件发掘研究与实现毕业论文

 2021-02-28 09:02  

摘 要

在当前这个网络十分发达的社会里,网络社交越来越受到大家的青睐,通过网络传播的信息量也是与日俱增,十分巨大。如何从网络社交平台发掘出有价值、有意义的信息成为了研究者们研究的一大问题。

从社交平台中挖掘出有价值的信息这一过程称为事件发掘,在社交平台上对事件发掘进行研究可以让我们从网络社会里获取当前的热点事件以及网络舆情,可以让程序去分析相关信息,这也是本文研究的目的和意义所在。

目前国内外研究社交媒体上的事件发掘所用到的技术主要包括自然语言处理技术,对于标注类型的事件发掘,常用的算法和工具是条件随机场算法和CRF 工具包。由于中文语言的特殊性,进行中文的事件发掘需要涉及到许多的中文自然语言处理(NLP)问题,例如分词、词性标注等处理过程相对英文来说要复杂的多。因此国内的研究又会采用一些针对中文的技术例如哈工大提出的LTP系列中文处理技术。

基于以上考虑,本文将新浪微博这一网络社交平台作为研究对象,结合中文自然语言处理技术来进行特定主题的事件发掘工作。具体设计并实现的事件发掘系统包括微博抓取、语言特征标注、配套管理网站、基于条件随机场(CRF)算法的训练与测试四大模块。

在本文实现的系统中,最后事件发掘的结果召回率为76.98%,精确度为83.62%,准确率为93.92%,综合F1指数为80.17%。

关键词:中文社交媒体;条件随机场;事件发掘;自然语言处理

Abstract

In the current society in which network is very developed,the network of social is becoming more and more popular with people of all ages.The amount of information transmitted through network is growing bigger and bigger.How to discover valuable and meaningful information from the network social platform has become a big problem for researchers.

Digging out the valuable information from the social platform is called event discovery, in the social platform for the study of the event can let us from the network community to obtain the current hot events and network public opinion, you can let the program to analyze the relevant information , Which is the purpose and significance of this study.

At present, the technology used in the study of social media at home and abroad mainly includes natural language processing technology. For the annotation type event discovery, commonly used algorithms and tools are conditional random field algorithm and CRF toolkit. Due to the particularity of the Chinese language, the Chinese event discovery needs to involve many Chinese natural language processing (NLP) problems, such as word segmentation, part of speech and other processing procedures relative to the English to be more complex. Based on the above considerations, this article will Sina microblogging this network social platform as a research object, combined with the Chinese natural language processing technology to carry out a specific theme of the event excavation work.

In the system realized in this paper, the recall rate of the final event is 76.98%, the accuracy is 83.62%, the accuracy rate is 93.92%, and the comprehensive F1 index is 80.17%.

Key words: Chinese social media; Conditional random field; Event discovery; Natural language processing

目录

第1章 绪论 1

1.1 研究背景及意义 1

1.2 国内外研究现状 1

1.2.1 自然语言处理 2

1.2.2 社交媒体事件发掘 2

1.3 本文主要研究内容 2

1.4 本文主要结构 4

第2章 微博数据获取及预处理 5

2.1 数据需求简述及分析 5

2.2 抓取方案选择 5

2.2.1 Python爬虫框架Scrapy 5

2.2.2 自写爬虫 5

2.2.3 新浪微博API 6

2.2.4 综合方案选择 6

2.3 微博的数据清洗及标准化 6

2.4 数据存储入库 7

2.4.1 数据库选择 7

2.4.2 表结构设计 7

第3章 语言特征标注 8

3.1 自然语言处理概述 8

3.2 NLP工具选择 8

3.2.1 结巴分词 8

3.2.2 OPENNLP工具包 8

3.2.3 哈工大-科大讯飞语言云LTP 9

3.2.4 处理工具选择 9

3.3 LTP处理结果格式说明 9

3.3.1 XML格式说明 9

3.3.2 CONLL格式说明 10

3.4 LTP各个处理过程说明 11

3.8 人工事件标记 12

3.9 本章小结 14

第4章 后台管理网站搭建 15

4.1 网站需求分析与说明 15

4.2 网站技术栈确定 15

4.2.1 前端技术选型 15

4.2.1 后台技术选型 15

4.3 网站结果展示 15

第5章 CRF算法与事件挖掘的实现 17

5.1 事件发掘的模型选取 17

5.2 条件随机场 17

5.2.1 条件随机场定义 17

5.2.2 CRF在系统中的应用 18

5.3 CRF处理工具 18

5.4 CRF训练 19

5.4.1 训练数据的获取 19

5.4.2 训练模板的设计 19

5.4.3 训练和测试 21

5.5 最优训练参数筛选 21

5.5.1 评测体系 21

5.5.2 训练参数选择及结果测试 22

5.6 本章小结 23

第6章 结论 24

6.1 本文工作总结 24

6.2 系统不足之处 24

6.3 下一步研究计划 25

参考文献 26

致谢 28

第1章 绪论

1.1 研究背景及意义

当前的社会是一个高度网络化的社会,随着近年来网络的发展,人们的社交有相当大的一部分逐渐转移到网络上。近年来,随着一些网络社交平台如国内的新浪微博、腾讯微博,国外如Twitter等的出现,大批的人群加入到网络社会这个虚拟的社会中,而网络社会里的信息也呈爆炸式的增长。这些社交媒体上包含了大量的有用的信息,我们从中可以发掘出有指导意义的内容。

新浪微博是一个可以把文字、图片等信息分享至自己的关注者的平台,它基于关注/取消关注来建立/解除好友关系。它的一大特点是发布的微博最多只能是140个字符,这种限制能够让用户把信息说明的更加清晰,因此,选择微博作为本文获取信息的来源。

要让计算机程序能够代替人力从微博中获取到有用的信息,就必须把微博文本转换成计算机能够识别的格式,并且相应的信息短能够用一些特定的标记符标记,这一过程通常被称作自然语言处理(Natural Language Processing,NLP)[1]

一些社会事件常常第一时间在微博平台上曝光出来,因此,微博上的信息具有及时性强的特点。然而,由于微博用户群体的庞大,虽然数据量会很大,但其稳定性却很难保证,因此,我们的微博数据来源主要是一些政府、相关部门,相关民间权威人士的微博,这样的数据更有真实性。

但微博这种类型的社交媒体属于新兴媒体,与传统媒体不同,它所携带的信息具有很多冗余,其中有很多都是无用信息。因此,如何从海量的信息中发掘出有用的信息点成了人们关注的焦点。

1.2 国内外研究现状

本小节将从自然语言处理和社交媒体事件发掘两个方面来阐述国内外的研究现状。

1.2.1 自然语言处理

自然语言处理是实现人与计算机之间直接通信的重要手段,自上个世纪90年代以来,国内外关于自然语言处理的研究日益增多,在特定的应用领域,一些商业化的应用已经开始出现,例如多语种数据库和专家系统的自然语言接口、各种机器翻译系统、全文检索系统等。

您需要先支付 80元 才能查看全部内容!立即支付

企业微信

Copyright © 2010-2022 毕业论文网 站点地图