基于深度学习的写作风格分类与识别开题报告

 2020-02-10 11:02
1.目的及意义(含国内外的研究现状分析)

1 课题来源、目的、意义以及国内外研究现状

1.1 课题来源

随着移动互联网技术快速发展,人类依赖计算机从事的工作越来越多,也越需要计算机能够智能地理解和处理海量的自然语言信息。在自然语言处理中,作品风格分析是计算语言学的经典的研究工作。不同的作家具有各自不同的写作特点,这些特点体现在使用的词语、句子结构、修辞方法等许多方面。目前关于作者写作风格的研究还主要依靠作者主观判断、利用语感进行人工分析[1],而更深入的利用计算机进行语言风格的研究依旧比较困难。

1.2 研究目的及意义

1.2.1 研究目的

针对不同作者在作品中体现出的不同语言特征,如句类、虚词、词语、句子长度等特点,我们对于作者作品中的句子进行分词和句子成分的划分,通过使用计算机的方法对这些特征进行进行收取与统计,并对收集到的数据进行预处理,去除掉其中出现次数较小的可能对分类结果产生不良影响的项;使用数学符号形式定义文章的写作风格,结合之前收集到的特征,扩展了如何使用机器学习算法对文章尽行定义;根据训练出的特征或已经拥有的数据集,从整体的风格和单独的作品出发,结合二者的各项特征,构建出文章风格分类模型,并进一步对作者的写作风格进行定义。最后提出整体总体的建模方案。

1.2.2 研究意义

近年来,随着互联网技术的发展和移动网络的兴起,网络上产生了越来越多的文本信息,如网络小说、新闻等等;而一些经典的优秀文学作品的数字化也在紧锣密鼓的进行中。这些不断积累的文本知识,是人类文化的宝贵财富,同时,也为许多的应用领域提供了进行探索的原始材料。

统计和分析文本分类数据,可以归纳出它们所属的文章风格,甚至进一步的判断出作者的写作风格。借助这些数据,我们可以进行许多有意义的工作,例如:借助作者所属的写作风格,阅读网站可以根据其浏览者浏览记录中偏好的作者,根据这些作者的写作风格寻找写作风格相似的作者,从而对浏览者可能感兴趣的内容进行进一步的针对性的推荐;通过对写作风格的分析,还可以解决某些书前后的作者是否为同一人的问题,如在《红楼梦》中,许多人质疑前80回与后40回的作者是否是同一人[1],通过对前后两段的写作风格,使用计算机进行客观化的分析,可以的出进一步的结论;最后,一名作者的写作风格在一段时间内往往保持稳定,通过对其写作风格的研究,对比其之前的作品,我们可以为判断和解决是否存在抄袭等问题进行比较有利的佐证。

该项目针对目前存在的部分作者的部分文学作品,使用了机器学习的方法构建了基于写作风格的分类模型。针对目前中文文学作品风格分析中存在的如分词、句类等问题设计了适用于中文作品风格分类的系统,并尝试解决以上所述的一些问题。

1.3 国内外的研究现状

所谓风格,一般是指作风、风貌、格调等各种特点的综合体现[2],写作风格,就是作家创作个性与具体话语情境造成的相对稳定的整体话语特色[3],它是主体与对象、内容与形式的特定融合,是一个作家创作趋于成熟、其作品达到较高艺术造诣的标志[2]。作家作品风格收到地域、时代、流派等各方面的影响。作品风格通常被称为作家的徽记或指纹,因此,不同的作家作品间往往具有差异性。

1.3.1国外研究应用现状

通过分析文章的写作特点来推断作者的写作风格这一研究在国外很早就已经开始了,最早进行写作风格学研究的是英国逻辑学家Augustus De Morgan,他建议以英文单词的长短来区分不同作者的写作风格[4]。作者的写作风格体现在其文章的语法、词汇、修辞、语篇结构、句式以及句法等特点中[5]是写作过程中所形成的个人语言特征,和笔迹类似,不同的作者风格也不相同,根据这一特点可以比较准确地推断出某篇文章的作者,这在司法鉴定、抄袭检测以及文献考证领域有着非常广泛的应用前景。

最著名的作品风格研究要属美国《TheFederalist Papers》的作者认定问题[6]与莎士比亚的作品风格研究,摩斯泰勒和瑕莱斯对其中12篇文章的写作风格进行了考证,认为可能的作者有两个人,一个是美国开国政治家汉密尔顿,另一个是美国第四任总统麦迪逊。Eforn和Thisted对莎士比亚作品的词汇使用频率进行了统计[6],定义为莎士比亚的写作风格,作为判断一篇作品是否为莎士比亚所写的依据,并用于推测1985年发现的一首9节诗歌为莎士比亚所写。

您需要先支付 5元 才能查看全部内容!立即支付

该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找,微信号:bysjorg 、QQ号:3236353895;