基于强化学习的吃豆人游戏AI的设计与实现开题报告

2022-01-25 23:02:23

全文总字数：1710字

1. 研究目的与意义及国内外研究现状

近年来随着大数据等技术的高速发展，机器学习已迎来发展拐点。机器学习将成为未来二十年全球最重要的科技，并成为工业机器人、无人机、无人驾驶、智能陪伴等新兴产业的重要基础。强化学习是机器学习的一部分，2016年 “alphago以4:1的比分击败了世界围棋冠军李世石”，最核心的技术便是强化学习。强化学习是智能体以不断尝试的方式进行学习，通过与环境进行交互获得的奖赏指导行为，目标是使智能体获得最大的奖赏。本次设计使在pacman游戏中，使用强化学习算法来实现pacman自动躲避ghost比吃掉所有的豆子获得尽可能高的分数。

国内外研究现状

强化学习算法在最近几年取得取得行的突破，2015年，deepmind的volodymyr mnih等研究员在《自然》杂志上发表论文，提出了一个结合深度学习技术和强化学习思想的模型deep q-network(dqn)，在atari游戏平台上展示出超越人类水平的表现，首次将深度学习与强化学习结合起来形成深度强化学习，迅速成为人工智能界的焦点。之后又有像深度逆向强化学习之类的算法出现，不断推动着强化学习的发展。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

2. 研究的基本内容

本课题内容包括训练一个吃豆人智能体能够躲避鬼吃掉图中的豆子，并能在吃掉胶囊(capsule)后在一定时间限制内吃掉鬼，最终获得高分。

具体到实现上，在pycharm上利用python语言编写强化学习中的q-learning算法，从游戏中提取适当的特征值做值函数近似，不断训练更新权值，运行时在每个状态处执行q-value值最大的行动，最终赢下游戏，获取高分

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

3. 实施方案、进度安排及预期效果

实施方案：通过查阅相关资料和动手实践，深入了解强化学习的基本概念和原理以及使用方法。先把相关概念、基本原理和使用方法了解透彻，再通过python编写程序实现吃豆人的自主运行，探索和学习。

进度安排：

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

4. 参考文献

[1] kaelbling, l.p., m.l.littman, anda.w.moore.(1996). “reinforcement learning: a survey.” journal of aritificialintelligence research.

[2] watkins, c.j.c.h. and p.dayan.(1992).“q-learning.” machine learning.

[3] sutton, r.s. and a.c.barto.(1998).reinforcement learning : an introduction. mit press, cambridge, ma.

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

注册

找回密码