基于DQN实现电脑自学Flappy Bird游戏开题报告

2020-04-13 14:31:37

1. 研究目的与意义（文献综述）

一、背景资料

增强学习理论根植于心理学和神经科学^[1]，它可以很好的解释一个机器玩家如何在一个环境中优化自己的控制。为了在真实复杂的物理世界中成功的使用强化学习算法，一个机器玩家必须面对困难的任务：利用高维的传感器输入数据，达到很好的表达，并且泛化先验经验到新的未见环境中^[^2,^3]。现在增强学习算法只能运用在那些手动提取有用特征的领域^[⁴^]、或者一些低维可以直接观察到的领域^[⁵^]。增强学习是基于人类行为构建的，只是对人类行为进行了公式化处理^[6]，让计算机有了学习机制，但是并不能让计算机自己

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

2. 研究的基本内容与方案

一、基本内容

在该题目中使用deepmind团队在《playing atari with deep reinforcement learning》论文中描述的deep q learning算法，进一步推广应用到《flappy bird》，实现在只有游戏界面输入的情况下，计算机自学自玩flappy bird 游戏，这里的dqn(deep q-network)，是一个卷积神经网络，利用q-learning的变量训练，其输入是原始像素，其输出是估计未来奖励的价值函数，从而判断下一步的动作，完成游戏任务。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

3. 研究计划与安排

第一阶段（2016/02/24—2016/03/10）：查阅有关的参考资料并完成开题报告；翻译英文资料（不少于5000汉字），并交予指导教师检查。

第二阶段（2016/03/10—2016/04/10）：了解dqn算法，学习深度学习原理与tensorflow实践。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

4. 参考文献（12篇以上）

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

注册

找回密码