基于语境的中文文本情感分析研究开题报告

 2022-01-09 10:01

全文总字数:3680字

1. 研究目的与意义及国内外研究现状

文本是人类用以承载信息的主要载体之一,由于文本都是按照人类易于理解的方式进行组织与撰写,因此文本数据是非结构化的数据,这给计算机分析与处理文本带来了困难。目前,文本信息提取的研究分为四个层面,分别包括命名实体识别、实体关系识别,事件提取与信息集成。本文研究的主要目标属于文本事件信息的提取研究。

本课题首先概要的分析了目前现有的文本信息提取技术,认为目前文本信息提取技术所遇到的瓶颈原因在于文本信息所具有的特性。文本信息是人类大脑的产物,文本信息是结构化的,因此仅仅使用统计学习方法很难对文本信息的结构特征加以建模与描述。或者从根本上说,目前文本信息提取与信息处理研究使用的语言模型存在有一定的问题。由此,本文提出基于语境的语言模型。与语言学中所提出的语境概念及其制约性作用一致,本文的语境模型认为语境是由词所具有的背景知识通过逻辑相容推理而形成的一种结构,并给出了语境模型的结构。通过对语境模型的性质分析,指出语境具有多种尺度,以及语境中的词可以分成核心词和非核心词二个组成部分,其中核心词对于语境的构成具有重要的作用,而非核心词的作用是修饰或限定核心词。

国内外研究现状

如果要实现良好的文本信息提取效果,就必须要先给出文本的语义模型,但是文本的语义一直是机器学习领域比较困难的问题,本身语言和语义学对于语义的理解与定义也众说纷纭,遑论使用计算机算法来直接表述语义。查阅文献发现在语言学研究领域中存在有一个子研究领域:语境学。语境是语言学研究领域较为热门的一个分支,从直观意义上解释语境(context)是指文本中一个词或短语在毗邻字词、短语、句子或段落中所处的环境。语言学研究认为语境研究对语义研究至关重要。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究的基本内容

本文首先概要的分析了目前现有的文本信息提取技术,认为目前文本信息提取技术所遇到的瓶颈原因在于文本信息所具有的特性。文本信息是人类大脑的产物,文本信息是结构化的,因此仅仅使用统计学习方法很难对文本信息的结构特征加以建模与描述。或者从根本上说,目前文本信息提取与信息处理研究使用的语言模型存在有一定的问题。由此,本文提出基于语境的语言模型。

与语言学中所提出的语境概念及其制约性作用一致,本文的语境模型认为语境是由词所具有的背景知识通过逻辑相容推理而形成的一种结构,并给出了语境模型的结构。通过对语境模型的性质分析,指出语境具有多种尺度,以及语境中的词可以分成核心词和非核心词二个组成部分,其中核心词对于语境的构成具有重要的作用,而非核心词的作用是修饰或限定核心词。将会通过相关的实验初步验证了语境模型的相关结论,同时借助于词语境的共现矩阵来替代语境模型实现了文本分类的实验

因此,如果能提取出蕴含特定事件信息的句子或段落所对应的语境特征,那么即可能从文本中辨识出这些句子或段落再进一步提取出相关的事件信息。为了能提取出文本语境的特征,分析了文本中最小尺度语境的特征,并给出了最小语境的求解算法。在求解最小语境算法中,给出了经典语言模型中N-Gram的确定方法。在接下来的实验中给出基于最小语境求解构建的依存句法树算法,并给出了相关的实验。同时在抽取关键词与基于关键词的知识发现实验中,进一步验证了本文提出的文本语境模型的合理性。

3. 实施方案、进度安排及预期效果

实施方案:本文的文本语境实验环境是自主开发的,主要的目的是为实现本文中涉及的算法提供实验中的数据、中间实验结果,本文开发的文本语境实验环境一共包括四个部分:开发数据中间接口hibase,开发的公开源数据框架即是一个专用于网络公开源数据采集的通用性框架,在文本索引方面比较有影响的是lucene组件

进度安排:

2017.12.20-2018.1.10 确定具体选题,搜集文献资料,并填写任务书

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 参考文献

[1] chen m, mao s, liu y. big data: a survey[j]. mobile networks and applications, 2014, 19(2): 171-209.

[2] fan w, bifet a. mining big data: current status, and forecast to the future[j]. acm sigkdd explorations newsletter, 2013, 14(2): 1-5.

[3] wu x, zhu x, wu g q, et al. data mining with big data[j]. ieee transactions on knowledge and data engineering, 2014, 26(1): 97-107.

剩余内容已隐藏,您需要先支付 5元 才能查看该篇文章全部内容!立即支付

该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。