基于卷积神经网络的文本分类外文翻译资料

2022-12-24 16:32:13

英语原文共 6 页，剩余内容已隐藏，支付完成后下载完整资料

基于卷积神经网络的文本分类

Yoon Kim

纽约大学

摘要：针对句子级别的分类任务，我们使用卷积神经网络（CNN）结合预训练的词向量做了一系列的实验。我们提出一个少量调节超参数的简单CNN模型结合静态词向量可以在很多基准上取得非常好的结果。通过细粒度的调节参数学习特定任务的词向量可以进一步地提升结果。此外，我们提出了对架构简单地修改，这样可以同时使用基于特定任务和静态的词向量。此处讨论的CNN模型在7个任务中的4个取得了目前最好的结果，包括情感分类和问题分类。

1.介绍

近年来，深度学习模型在计算机视觉（Krizhevskv et al., 2012）和语音识别（Graves et al., 2013）两大领域已经取得了显著的结果。在自然语言处理领域，基于深度学习模型的大量工作已经涉及通过神经语言模型（Bengio et al., 2003; Yih et al., 2011; Mikolov et al., 2013）学习词向量的表示和在训练好的词向量上组合特征用于分类任务（Collobert et al., 2011）。词向量，此处单词从一个稀疏,V（这里V是所有词的总数）维的编码通过一个隐藏层映射到一个低维的向量空间，这对将单词的语义特征编码到词向量中的特征抽取器来说非常重要。在这样稠密的表示中，语义相近的单词在低维向量空间中的欧式距离或余弦距离也会同样相近。
卷积神经网络（CNN）利用了可以提取局部特征（Lecun et al., 1998）的卷积层。起初被用来研究计算机视觉的CNN模型后来已经被证明在NLP领域内同样有效，并且在语义分析（Yin et al., 2014），搜索查询检索（Shen et al., 2014），句子模型（Kalchbrenner et al., 2014）, 和其它NLP（Collobert et al., 2011）任务上已经取得了相当好的结果。
在这篇论文中，我们在通过非监督神经语言模型训练的词向量上训练一个只有一个卷积层的简单CNN。这些词向量是Mikolov（2013）等人在10亿Google 新闻数据上训练出来的并且是公用的。我们起初是保持这些词向量不变并且只学习模型的其它参数。尽管调节少量的超参数，这个简单的模型就在很多基准上取得了非常好的结果，这说明预训练的词向量是“通用的”特征抽取器，可以被应用在很多分类任务上。通过细粒度的调节学习特定任务的词向量可以进一步提升结果。我们最终对架构做了简单的修改，借助多个通道可以同时使用预训练的词向量和特定任务的词向量。
我们的工作从哲学的角度上很像Razavian（2014）等人的工作，他们提出对于图像分类，通过预训练的深度神经学习模型设计的特征抽取器在很对任务上都表现的很好——包括很多和原始任务不同的任务。
2.模型

图1 处理一个句子的两个通道的模型架构

如图1所示的模型的架构，是Collobert（2011）等人提出的 CNN架构的微小变形。让x_iisin;R^k表示句子中第i个词的k维词向量。一个包含n个单词的句子（必要的时候可以填充）可以表示成：
x_(1:n)=x_1oplus;x_2oplus;hellip;oplus;x_n （1）
这里oplus;表示串联符。一般来说让x_(i ∶ i j)表示单词x_i，x_(i 1)，hellip;，x_(i j)的连接。一个卷积操作涉及一个过滤器wisin;R^hk，它被应用在一个h个单词的窗口来产生一个新的特征。例如，特征c_i是对单词窗口x_(i∶ i h-1)应用如下公式产生的：
c_i=f(w∙x_(i∶ i h-1) b) （2）
这里bisin;R是偏置项，f是一个非线性函数如双曲正切函数。该过滤器应用在句子中{x_(1∶ h ), x_(2∶h 1),hellip;,x_(n h-1∶n) }每一个可能的单词窗口来产生一个特征映射：
c=[c_1,c_2,hellip;,c_(n h-1) ] （3）
这里cisin;R^(n-h 1)。然后我们对特征映射采用最大池化策略（Collobert et al.， 2011）并取最大的值=max{c}作为对应此过滤器的特征。此思路是去捕获最重要的特征——每个特征映射中最大的值。最大池化可以自然处理不同的句子长度。
我们已经描述了通过一个过滤器抽提取一个特征的过程。该模型使用多个过滤器（使用不同的窗口大小）来获取多个特征。这些特征组成了倒数第二层并且传给全连接的softmax层，最后输出标签的概率分布。
在其中一个模型变种中，我们使用了有两个“通道”的词向量进行实验，一个通道中的词向量在模型训练的过程中保持不变，另一个通过BP算法（3.2节）进行细粒度的调节。在多通道架构中，如图1所示，每个过滤器在两个通道同时过滤，结果被加起来用等式（2）计算c_i。否则模型等价于单通道的架构。
2.1 正则化
对于正则化，在倒数第二层我们采用dropout并且限制权重向量（Hinton et al., 2012）的二范式大小。Dropout通过随机丢弃——例如在前向传播的过程中，每个隐层单元有p的概率被丢弃，从而防止隐层单元的共适应问题。即，给定倒数第二层z=[(_1 ),hellip;,(_m )]（指出我们有m个过滤器），而不是使用：
y=w∙z b （4）
在前向传播中对输出单元y，dropout使用：
y=w∙(z○r) b （5）
这里○是元素级的乘法操作并且risin;R^m是有p的概率变为1的伯努利随机变量中的一个“掩盖”向量。梯度仅仅可以通过非掩盖的单元反向传播。在测试阶段，学习到的权重向量通过因子p缩减例如=pw,并且被用来（没有使用dropout）对看不见的句子进行测试。我们另外限制权重向量的二范式，在每一步梯度下降之后，如果‖w‖_2gt;s，重新将w的二范式设置为‖w‖_2=s。

表1分词之后的数据集的简要统计

C：目标类的个数。l：平均句子长度。N：数据集大小。|V|：单词总数。|V_pre |：出现在预训练词向量中词的个数。Test：测试集的大小（CV意味没有标准的训练/测试集并且采用十折交叉验证的方法）

3.数据集和实验步骤
我们在不同的基准上测试我们的模型。数据集的简要统计如表1所示。

MR: 一句话的电影评论。分类涉及检测积极/消极的评论（Pang and Lee, 2005）。
SST-1：斯坦福情感树库——MR数据的扩展，但是包含训练/开发/测试数据集的划分及细粒度的标签（非常积极、积极、中立、消极、非常消极），被Socher（2013）等人重新标记。
SST-2: 和SST-1一样，但是没有中立的评论，只有积极和消极两种标签。
Subj：主观数据集，任务是去划分一个句子是主观性的还是客观性的（Pang and Lee. 2004）。
TREC：TREC问题数据集——任务涉及到将一个问题划分为六种问题类型（问题是否是关于人，位置，数值信息等）（Li and Roth, 2002）。
CR：不同产品（照相机、MP3s等）的客户评论。任务是预测积极/消极的评论（Hu and Liu, 2004）。
MPQA：MPQA数据集（Wiebe et al., 2005）的观点极性检测子任务。

3.1 超参数和训练过程

对于所有我们使用的数据集，矫正线性单元，每种卷积窗口有100个特征映射的3、 4、 5三种卷积窗口（h），0.5的dropout比例（p），二范式约束为3以及mini-batch大小为50。这些值在SST-2 验证数据集上通过网格搜索进行选择。
我们除了在验证集上早停外没有另外进行任何特定数据集的调节。对于没有标准验证集的数据集，我们从训练数据集中随机选择10%的数据作为验证集。采用Adadelta更新规则（Zeiler, 2012）在mini-batches上通过随机梯度下降算法进行训练。
3.2 预训练的词向量
在没有大量监督训练集（Colobert et al., 2011; Socher et al., 2011; Iyyer et al., 2014）的情况下，对从非监督神经语言模型训练得到的词向量进行初始化是提高性能的普遍方法。我们使用公用的、从10亿Google 新闻数据中训练出来的Word2vec词向量。此向量的维度是300并且是采用连续的词袋架构（Mikolov et al., 2013）训练出来的。没有出现在预训练词向量中的单词随机初始化。
3.3 模型变种
我们使用以下模型变种进行实验。

CNN-rand：我们的基准模型，所有的词被随机初始化，并在训练的过程中进行调节。

CNN-static：一个使用预训练的词向量——Word2vec的模型。所有的词——包括随机初始化的未出现在预训练词向量中的词——保持不变并且仅仅通过学习调节模型其它的参数。

CNN-non-static：和上面的相似，但是预训练的词向量在每个任务中被细粒度的调节。

CNN-multichannel：有两个词向量集合的模型。每个向量集合被看作一个“通道”并且每个过滤器被应用于所有的通道，但是梯度只能通过其中一个通道进行反向传播。因此，模型能够细粒度的调节其中一个向量集合，而保持另外一个不变。两个向量集合都是由Word2vec进行初始化。

为了探究上述变种对其它随机因素的影响，我们通过在每个数据集上保持交叉验证次数赋值，未知词向量的初始化，CNN模型参数的初始化一致来消除其它随机化的根源。

表2 CNN模型和其它结果的对比

RAE:使用来自维基百科（Socher et al.,2011）的预训练词向量的循环自动编码器。MV-RNN:有解析树（Socher et al., 2013）的矩阵向量循神经网络。DCNN:有k维最大池化层（Kalchbrenner et al.,2014）的动态卷积神经网络。Paragraph-Vec:基于段落向量（Le and Mikolov,2014）的逻辑回归。CCAE:有组合类别语法运算符（Hermann and Blunsom 2013）的组合类别自动编码器。Sent-Parser:情感特定分析解析。（Dong et al., 2014）NBSVM,MNB:朴素贝叶斯算法价值流程图以及带有Wang和Manning(2012)提出的一元语法、二元语法的多项式朴素贝叶斯算法。G-Dropout,F-Dropout:Wang和Manning(2013)提出的高斯随机失活和快速随机失活。TREE-CRF:运用条件随机场（Nakagawa et al.,2010）的依赖树。CRF-PR:运用后正则化（Yang and Cardie,2014）的条件随机场。SVM_s:带有一元语法、二元语法、三元语法，疑问词，中心词，POS,分析器，上位词，Silva(2011)等人提出的作为特征的60条自行编码规则的价值流程图。

4.结果和讨论
我们模型和其它模型的结果对比被列在表2中。我们所有随机初始化词向量的基准模型（CNN-rand）就其本身而言表现的不是很好。然而我们期望通过预训练的词向量来提升效果，我们对效果提升的幅度感到很吃惊。甚至使用静态向量的简单模型（CNN-static）表现的相当好，产生了与利用复杂池化模式的复杂深度学习模型（Kalchbrenner et al., 2014）和需要提前计算解析树的模型（Socher et al., 2013）可比较的结果。这些结果说明预训练的词向量是好的，“通用”的特征提取器并且可以跨数据集使用。对每个任务细粒度的调节词向量可以进一步提升结果（CNN-non-static）。

4.1多通道与单通道模型比较

我们一开始期望多通道的架构可以避免过拟合（通过确保学习后的词向量不会偏离初始值太远），因此比单通道的模型表现更好，尤其在更小的数据集上。然而，结果是混合的，进一步规范化细粒度调节的过程是必要的。例如，在训练时可以使用能够调整额外维度的单通道，而不使用额外的通道作为非静止的部分。

表3 基于训练后的SST-2数据集的多通道模型中的静态通道中（左）向量依据余弦相似度得到的前4个相邻词以及非静止通道（右）中细粒度调节的向量

4.2静态与非静态表示比较

正如单通道非静态模型，多通道模型可以细粒度地调节非静态通道使它更能针对手头的任务。例如，在Word2vec中good和bad非常类似，大概是因为他们在语句构成上很相似。但是在SST-2数据集上，通过非静态通道调节的向量并不是这种情况。相似

剩余内容已隐藏，支付完成后下载完整资料

资料编号：[20752]，资料为PDF文档或Word文档，PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容！立即支付

注册

找回密码