基于深度学习的视觉问答系统文献综述

2020-04-14 09:04

1．目的及意义

1.1课题研究的目的及意义

随着深度学习技术的进步，计算机视觉的诸多领域，例如图像分类、物体检测和活动识别等，都取得了巨大的发展。然而，这些问题的范围很窄，不需要对图像进行全面理解，开发一种能够回答关于图像的任意自然语言问题的计算机视觉系统便成为了业界广泛关注的目标，即视觉问答(VQA)。视觉问答旨在连接计算机视觉(CV)和自然语言处理(NLP)两个领域，一方面，CV用于获取、处理和理解图像，简而言之，它的目标是教机器如何看；另一方面，NLP在自然语言中实现人机之间的相互作用，即教机器如何阅读等其他任务。

在最常见的视觉问答中，计算机在收到一幅图像和关于该图像的文本问题后，必须给出正确的答案，问题形式可以是任意的，比如“图像中是否有猫”“猫的颜色是什么”“图像中有多少只猫”等。在诸如分割或对象检测等计算机视觉的传统问题中，具体的任务和使用的算法都可以提前确定，而VQA与他们的主要区别在于，待回答的问题将采用的形式直到运行时才确定，回答它所需的操作集也是如此。另外它经常需要图像中不存在的信息。从生活常识到图像中特定元素的百科知识，都有可能涉及。

VQA有许多潜在的应用。最直接的是帮助盲人，使他们能够在网络和现实世界中获得有关图像的信息。更一般地，VQA可用于改善人机交互，作为查询可视内容的自然方式。VQA系统也可用于图像检索，而无需使用图像元数据或标签。例如，要查找在多雨环境中拍摄的所有图像，我们只要简单地向数据集中的所有图像询问“正在下雨吗”即可。

1.2国内外研究现状

近年来，国内外众多学者对视觉问答系统进行了深入的研究并提出了一系列模型。这类模型的基本思路是分别提取图像和文本特征后，再将两者融合加以推理产生答案。提取图像特征主要使用各种不同结构的卷积神经网络(CNN)。早期VQA模型采用预训练的VGGNet。He Kaiming等提出了使用ResNet处理图像，设计残差块结构并加入到卷积神经网络中，有效解决了随神经网络层数增加所导致的梯度弥散问题。Ross Girshick等提出的R-CNN模型，将传统的单目标图像特征扩展到多目标图像特征，为图像特征提取提供了新的思路。

早期VQA模型主要利用词袋模型提取文本特征，为解决其假定句子中每个单词相互独立的弊端，现有的模型大多采用循环神经网络(RNN)来提取包含上下文信息的问题文本特征。原始的RNN随着序列长度增长易导致梯度弥散，为了突破该局限性，RNN出现了许多变种结构，主要包括门控循环单元(GRU)和长短期记忆网络(LSTM)。目前VQA任务中对于语义信息分析的研究较为缺乏，仍存在巨大的研究空间。

VQA的关键流程便是将提取到的图像与问题文本两种不同模态的特征融合为包含两者关联信息的特征。Kevin J. Shih等引入注意力机制，使答案更关注与其相关性强的信息，从而避免被无关信息干扰。Jiasen Lu等提出了一种图像与问题协同注意的分层结构，使两者产生彼此的注意力权重，并利用该权重对相应的原始特征进行加权，有效提高了准确率。

{title}

2. 研究的基本内容与方案

{title}

2.1研究的基本内容、目标

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

注册

找回密码