基于卷积神经网络的网络文本分类开题报告

2022-01-25 23:22:24

全文总字数：2739字

1. 研究目的与意义及国内外研究现状

近年来,伴随着计算机技术、互联网及移动互联网产业的高速发展,网民数量呈现出了爆发式的增长,以微信、微博等社交平台为代表的互联网产品也日趋成熟。

随着大量活跃用户加入其中,每天都有数以亿计的短文本数据在这些平台上产生,如聊天记录、用户评论等。

无论是对于政府部门、科研单位还是互联网服务提供商来说,能够正确地应用文本分类技术,从而挖掘出蕴藏在数据背后用户的真实意图,具有非常重要的研究意义和巨大的应用价值。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

2. 研究的基本内容

模型学习单词矢量表示，并对血单词向量进行分类，单词从稀疏的1-of-V编码经过隐藏层投影到低纬度的向量空间上（就是提取编码维度中单词的语义特征），这些语义特征是用欧几里德或余弦距离表示的。利用卷积神经网络（CNNs）来进行句子分类，并通过随机搜索和贝叶斯优化来对超参数优化。对全部训练文档进行分词，由这些词作为向量的维数来表示文本;统计每一类文档中所有出现的词语及其频率，然后过滤，剔除停用词和单字词;统计每一类内出现词语的总词频，并取若干个频率更高的词汇作为这一类的特征词集;去除每一类别中都出现的词，合并所有类别的特征词集，形成总特征词集，最后得到的特征词集是我们用到的特征集合，再用该集合去筛选测试集中的特征。

3. 实施方案、进度安排及预期效果

卷积神经网络在情感分析中取得了很好的成果，相比于之前浅层的机器学习方法如NB、SVM效果更好，特别实在数据集较大的情况下，并且CNN不用我们手动去提取特征，原浅层ML是需要进行文本特征提取、文本特征表示、归一化、最后进行文本分类，文本特征提取主要可以分为四步：（1）：对全部训练文档进行分词，由这些词作为向量的维数来表示文本;（2）：统计每一类文档中所有出现的词语及其频率，然后过滤，剔除停用词和单字词;（3）：统计每一类内出现词语的总词频，并取若干个频率更高的词汇作为这一类的特征词集;（4）：去除每一类别中都出现的词，合并所有类别的特征词集，形成总特征词集，最后得到的特征词集是我们用到的特征集合，再用该集合去筛选测试集中的特征。文本的特征表示是利用TF-IDF公式来计算词的权值，这也充分利用的是特征提取时提取的特征来计算特征权值大小的，归一化处理需要处理的数据，经过处理后限制在一定范围内，经过处理后，我们原来的文本信息已经抽象成一个向量化的样本集，然后将样本集和训练好的模板进行相似度计算，若属于该类别，则与其他类别的模板文件进行计算，直到分进相应的类别，这是浅层ML进行文本分类的方式；CNN进行文本分类相对简单一些，我结合最近做的一些实验总结了一下：在利用CNN进行文本分类的时候，首先要将原始文本进行预处理，主要还是分词、去除停用词等，然后对预处理后的文本进行向量化利用word2vec，我利用的时word2vec中的skip-gram模型，将搜狗数据集表示为了200维的词向量形式;转化为词向量后就可以将每一句话转化为一个矩阵的形式，这样就跟利用CNN处理图像分类很相似

4. 参考文献

[1] 超人汪小建(seaboat)．卷积神经网络文本分类．博客，2018.3.24．

[2] 夏婵．卷积神经网络在nlp领域的实践：文本分类．博客，2017.6.3．

[3] guoyuhaoaaa．几种使用了cnn（卷积神经网络）的文本分类模．博客，2016.11.16．

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

注册

找回密码