登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 开题报告 > 电子信息类 > 信息工程 > 正文

基于强化学习的吃豆人游戏AI的设计与实现开题报告

 2022-01-25 11:01  

全文总字数:1710字

1. 研究目的与意义及国内外研究现状

近年来随着大数据等技术的高速发展,机器学习已迎来发展拐点。机器学习将成为未来二十年全球最重要的科技,并成为工业机器人、无人机、无人驾驶、智能陪伴等新兴产业的重要基础。强化学习是机器学习的一部分,2016年 “alphago以4:1的比分击败了世界围棋冠军李世石”,最核心的技术便是强化学习。强化学习是智能体以不断尝试的方式进行学习,通过与环境进行交互获得的奖赏指导行为,目标是使智能体获得最大的奖赏。本次设计使在pacman游戏中,使用强化学习算法来实现pacman自动躲避ghost比吃掉所有的豆子获得尽可能高的分数。

国内外研究现状

强化学习算法在最近几年取得取得行的突破,2015年,deepmind的volodymyr mnih等研究员在《自然》杂志上发表论文,提出了一个结合深度学习技术和强化学习思想的模型deep q-network(dqn),在atari游戏平台上展示出超越人类水平的表现,首次将深度学习与强化学习结合起来形成深度强化学习,迅速成为人工智能界的焦点。之后又有像深度逆向强化学习之类的算法出现,不断推动着强化学习的发展。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究的基本内容

本课题内容包括训练一个吃豆人智能体能够躲避鬼吃掉图中的豆子,并能在吃掉胶囊(capsule)后在一定时间限制内吃掉鬼,最终获得高分。

具体到实现上,在pycharm上利用python语言编写强化学习中的q-learning算法,从游戏中提取适当的特征值做值函数近似,不断训练更新权值,运行时在每个状态处执行q-value值最大的行动,最终赢下游戏,获取高分

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 实施方案、进度安排及预期效果

实施方案:通过查阅相关资料和动手实践,深入了解强化学习的基本概念和原理以及使用方法。先把相关概念、基本原理和使用方法了解透彻,再通过python编写程序实现吃豆人的自主运行,探索和学习。

进度安排:

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 参考文献

[1] kaelbling, l.p., m.l.littman, anda.w.moore.(1996). “reinforcement learning: a survey.” journal of aritificialintelligence research.

[2] watkins, c.j.c.h. and p.dayan.(1992).“q-learning.” machine learning.

[3] sutton, r.s. and a.c.barto.(1998).reinforcement learning : an introduction. mit press, cambridge, ma.

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

企业微信

Copyright © 2010-2022 毕业论文网 站点地图