登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 开题报告 > 理工学类 > 自动化 > 正文

基于深度强化学习的 flappy bird 应用开题报告

 2022-01-13 10:01  

全文总字数:2731字

1. 研究目的与意义及国内外研究现状

flappy bird是一款来自独立游戏开发者dong nguyen的游戏作品。在游戏中,玩家只需控制一只像素鸟通过两个管道中间的缝隙即可。如果玩家点击屏幕,鸟就会向上飞,如果玩家什么都不做,像素鸟就会一直下落。游戏中,像素鸟触碰到管道或者落地则游戏结束。

本设计利用基于深度残差网络的强化学习来训练flappy brid。最终目的是使机器学会如何去玩flappy brid,并取得更高的分数。

我们正处在一个日新月异、飞速变革的时代,层出不穷的新技术每天都在冲击和改变我们的生活。人工智能无疑是其中最受关注、也是影响最深远的技术领域。它为计算机插上了翅膀,演变出许多从前根本无法想象的新技术、新应用。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究的基本内容

flappy bird是一款来自独立游戏开发者dong nguyen的游戏作品。在游戏中,玩家只需控制一只像素鸟通过两个管道中间的缝隙即可。如果玩家点击屏幕,鸟就会向上飞,如果玩家什么都不做,像素鸟就会一直下落。游戏中,像素鸟触碰到管道或者落地则游戏结束。

本设计将利用基于深度残差网络的强化学习来训练flappy brid。

教电脑玩flappybird需要确定的两个东西是游戏和电脑,目的是电脑玩游戏。 游戏接收一个action操作,action是一个一维数组,比如a = [0,1], 当a[1] = 1的时候,我们让小鸟向上飞。如果是其它的数,小鸟下落。 我们训练出一个人工大脑agent,这个agent可以对环境environment中的状态status做出判断,读取环境的状态,并做出行动action。这个人工大脑做出行动之后,环境会根据受到的来自agent的行动给这个agent进行反馈reward,这个人工大脑会根据环境的反馈做出改进,从而做出更好improve的行动。就是这样一个循环往复的过程,agent不断地尝试,不断地改进自己,agent 每一步都要需要向着获得最大利益那边靠齐。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 实施方案、进度安排及预期效果

实行方案:本设计采用python进行编程,编程结束后对flappybird进行仿真训练。

实行进度

2018年12月10日—2019年1月10日:调研,初步对深度强化学习有一个了解。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 参考文献

1.何之源.21个项目玩转深度学习:基于 tensorflow的实践详解.北京:电子工业出版社,2018.3.

2.廖星宇. 深度学习入门之pytorch. 北京: 电子工业出版社.2017.09.01.

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

企业微信

Copyright © 2010-2022 毕业论文网 站点地图