基于强化学习的迷宫寻宝策略及APP设计与实现任务书

2020-02-20 08:38:34

1. 毕业设计（论文）主要内容：

强化学习是智能体（agent）以“试错”的方式进行学习，通过与环境进行交互获得的奖赏指导行为，目标是使智能体获得最大的奖赏，强化学习不同于连接主义学习中的监督学习，主要表现在强化信号上，强化学习中由环境提供的强化信号是对产生动作的好坏作一种评价（通常为标量信号），而不是告诉强化学习系统rls（reinforcementlearning system）如何去产生正确的动作。由于外部环境提供的信息很少，rls必须靠自身的经历进行学习。通过这种方式，rls在行动-评价的环境中获得知识，改进行动方案以适应环境。

同样的，寻宝游戏也是一个不断探索，不断“试错”来进行学习的过程。所以，本研究的目的在于强化学习的寻宝游戏策略研究，设计并实现一个运用强化学习算法的android寻宝游戏app。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

2. 毕业设计（论文）主要任务及要求

（1）基于强化学习的寻宝游戏策略研究：
强化学习是一个很大的范畴，其中包括了许多算法。

这些算法中比较经典的有使用表格学习的q-learning算法，sarsa算法；使用神经网络学习的deep q network算法以及直接输出行为的policy gradient算法等等，本研究中，我们可以任选其中一种算法或采取其他的强化学习算法来展开研究。

具体需要满足：设计一个寻宝游戏的app，地图类似于迷宫，路径上会有陷阱，需要操纵角色找到终点处的宝藏。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

3. 毕业设计（论文）完成任务的计划与安排

2019年1月11日-2019年1月31日：阅读文献，主要是形状检索与识别相关的文献；

2019年2月1日-2019年2月28日：掌握技能，具有针对性的学习编程语言和强化学习算法相关知识，尝试实现已阅读文献中的方法，完成开题报告；

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

4. 主要参考文献

[1] 郭霖. 第一行代码——Android[M]. 人民邮电出版社, 2016.
[2] Sutton R S, Barto A G. Reinforcement learning: An introduction[M]. MIT press, 2018.
[3] Watkins C J C H, Dayan P. Q-learning[J]. Machine learning, 1992, 8(3-4): 279-292.
[4] Wang Y H, Li T H S, Lin C J. Backward Q-learning: the combination of Sarsa algorithm and Q-learning[J]. Engineering Applications of Artificial Intelligence, 2013, 26(9): 2184-2193.
[5] Gu S, Lillicrap T, Sutskever I, et al. Continuous deep q-learning with model-based acceleration[C]//International Conference on Machine Learning. 2016: 2829-2838.
[6] Sutton R S, McAllester D A, Singh S P, et al. Policy gradient methods for reinforcement learning with function approximation[C]//Advances in neural information processing systems. 2000: 1057-1063.

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

注册

找回密码