大数据平台下的新闻分类程序设计开题报告

 2020-02-10 10:02
1.目的及意义(含国内外的研究现状分析)

题目:大数据平台下的新闻分类程序设计

背景资料:

随着互联网的发展,大量新闻快速涌现,信息严重过载,使用户较难在有限时间得到符合自身需求的信息,此时新闻的分类并个性化推荐就必不可少。

虽然针对新闻文本内容分类的方式相对于利用新闻标题的分类方式更为有效,但是新闻的正文内容通常较多,这使处理大量的新闻数据变得非常麻烦,但却相当关键。

此外传统存储数据的方式是本地数据库,虽然在这种方式下,对数据操作方便、便于维护,但是本地数据库容易产生数据孤岛,数据难被访问,处理海量新闻数据速度慢。大数据概念的提出有效的契合了这个难题,将传统的单机环境改为并行环境,并行化分类处理海量新闻数据的过程,提高系统的处理速度和可扩展性。

卷积神经网络作为一个十余年来快速发展的崭新领域,深度学习受到了越来越多研究者的关注,它在特征提取和建模上都有着相较于浅层模型显然的优势。深度学习善于从原始输入数据中挖掘越来越抽象的特征表示,而这些表示具有良好的泛化能力。它克服了过去人工智能中被认为难以解决的一些问题。且随着训练数据集数量的显著增长以及芯片处理能力的剧增,它在目标检测和计算机视觉、自然语言处理、语音识别和语义分析等领域成效卓然,因此也促进了人工智能的发展[1]

大数据平台下的新闻分类程序是在大数据的时代背景下将海量的散乱新闻数据利用卷积神经网络进行分类,进而实现新闻分类的效果。


目的和意义:

本选题的研究目的在于通过查阅有关资料和文献,设计一个大数据平台下的新闻分类程序,通过分类程序来实现新闻的有效分类以及新闻内容的个性化推荐。

本选题的设计意义:

卷积神经网络(ConvolutionalNeural Networks, CNN)是一类包含卷积计算且具有深度结构的前馈神经网络(FeedforwardNeural Networks),是深度学习(deep learning)的代表算法之一[2]。CNN的基本结构包括两层,其一为特征提取层,其二是特征映射层,由于有这两层结构,CNN可以不断缩小特征分辨率以达到识别缩放、位移和其他扭曲不变性的二维图形的目的,正因此CNN在自然语言处理和图像识别领域有着广泛的运用。

TensorFlow是一个基于数据流编程(dataflow programming)的符号数学系统,被广泛应用于各类机器学习(machinelearning)算法的编程实现,其前身是谷歌的神经网络算法库[3]

协同过滤推荐算法主要是通过相似度计算,寻找与目标用户相似度最高的用户,将用户感兴趣的内容或相似度较高的其他内容推荐给最终用户[4]。协同过滤算法是一种有效、较为准确的推荐算法。

通过Tensorflow框架来实现CNN,利用CNN对获取到的新闻进行处理,再将程序中记录好的用户行为与特性利用协同过滤推荐算法将用户可能感兴趣的信息推荐给用户。综上,开发出一个大数据平台下的新闻分类程序,可以缓解数据孤岛问题,可以有效地对新闻文本分类并进行个性化推送,同时可以方便人们日常浏览新闻、接收准确分类的新信息。因此,该选题有着重要的研究意义和现实意义。


国内外的研究现状分析:

国内研究现状:

(1)李锋刚等人[5]充分结合SVM和LDA算法的优势并提高分类精确度,提出了一种新的LDA-wSVM高效分类算法模型。利用LDA主题模型进行建模和特征选择,确定主题数和隐主题—文本矩阵;在经典权重计算方法上作改进,考虑各特征项与类别的关联度,设计了一种新的权重计算方法;在特征词空间上使用这种基于权重计算的wSVM分类器进行分类。实验结果表明,提出的LDA-wSVM模型在文本自动分类中具有很好的优越性能。

(2)周枫等人[6]提出了一种采用双向门控循环单元(BGRU)进行池化的改进卷积神经网络模型。该模型可以进行端到端的训练,对多种类型的文本进行训练,适应性较强。实验结果表明,相较于其他同类模型,提出的改进模型在学习能力上有较大优势,分类精度也有显著提高。

您需要先支付 5元 才能查看全部内容!立即支付

该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找,微信号:bysjorg 、QQ号:3236353895;