基于深度学习的文本生成图像算法及实现开题报告

2020-02-18 19:23:27

1. 研究目的与意义（文献综述）

1 目的及意义

利用神经网络可以从文本生成图片，即将文本的语义转化为图片; 也可以从图片生成文本，即生成的文本描述图片中的内容，例如一幅图片中有一只小鸟落在枝头，最后由图片生产的文本就是一只可爱的绿色小鸟落于枝头。在计算广告中这种文本和图片之间互相生成的过程非常有用，如果可以在工业界有所突破，他们在广告创意的制作中将会发挥巨大作用，例如选定一个创意标题，立刻得到了创意图片，当制作完成了创意图片时也立刻得到了创意标题。

本文旨在利用生成对抗网络算法语言生成图像，生成对抗网络对于生成式模型的发展具有重大的意义，作为一种生成方法,它能够有效地解决建立自然性解释数据的生成难题，特别是生成高维的数据,gan所使用的神经网络结构对于生成的数据维度没有限制，这极大的丰富了生成样本的多样性。生成对抗网络所采用的神经网络结构能够整合各类损失函数,丰富了算法设计的自由度.gan创新性的采用两个神经网络的对抗的方式作为训练准则,并允许使用反向传播机制来进行更新优化，训练过程中没有复杂的变分下界也不需要使用马尔科夫链方法以及做各种近似推理，有效地提高了生成结构的训练效率，降低了训练难度。gan可以直接进行新样本的采样和推断，不需要繁琐的采样序列，提高了新样本的生成效率。对抗的训练方法摒弃了对真实数据的依赖，扩展了生成过程的自由度，增加了样本的多样性。在实践中，gan生成的样本易于人类理解，例如，生成清晰的图像。gan除了提供了新的生成方式以外，还对于半监督学习的研究和发展有重要影响。在gan的训练过程是不需要制定数据标签的，虽然其的目的不是使用半监督学习，但是gan的训练过程可以实施半监督学习中无标签数据对模型进行训练。具体来说就是先利用无标签数据训练gan，再把少量有标签的数据传入已训练的gan，利用gan对数据的理解进一步训练判别器，这样可以很好的实现传统分类与回归任务。

2 国内外研究现状

2.1深度学习研究现状
近几年来，机器学习中的深度学习迅速成为了人工智能领域的焦点，无论是研究还是应用方面都得到了极大的发展，相关的理论成果和技术应用不断突破，
neural information processing systems ( nips)、international conference on computervision ( iccv )、international conference on machine i earning ( icml)、theassociation for the advancement of artificial intelligenceaaai )international joint conference on artificial intelligence (ijcai)等机器学习领域的国际学术会议也提高了对深度学习的关注程度。于此同时，深度学习的思想在学术界和企业也得到了极大地关注。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

2. 研究的基本内容与方案

3.1 基本内容

本论文主要研究任务包括：

1、python编程；
2、基于深度学习的文本生成图像算法原理；
3、基于python实现文本生成图像。

3.2 预期目标

为实现gan的生成的图像数据满足既定的要求,本文实验设计了一种能够根据语言文字描述输出符合描述的图像的模型。基于此通过大量阅读文献以及多次改进模型试验验证，确定了以结合长短期记忆网络(long short-temm memory,简称lstm)和vgg-19卷积神经网络模型的gan模型，用以实现把文字描述转化为图像信息。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

3. 研究计划与安排

第1周—第3周搜集资料，撰写开题报告；
第4周—第5周论文开题；
第6周—第12周撰写论文初稿；
第12周—第15周修改论文；
第16周论文答辩

4. 参考文献（12篇以上）

[1] 王坤峰，苟超，段艳杰，林懿伦，郑心湖，王飞跃.生成式对抗网络gan的研究进展与展望.自动化学报, 2017,43(3): 321-332
[2] 刘建伟，刘媛，罗雄麟.深度学习研究进展计算 [j] 2014.07.311921-1930

[3] h. caesar, j. uijlings, and v. ferrari. coco-stuff: thing and stuff classes in context. arxiv preprint arxiv:1612.03716, 2016. 2, 6

[4] a. chang, w. monroe, m. savva, c. potts, and c. d. manning. text to 3d scene generation with rich lexical grounding. in acl, 2015. 2

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

注册

找回密码