登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 文献综述 > 计算机类 > 计算机科学与技术 > 正文

基于强化学习的五子棋Agent的设计与实现文献综述

 2020-06-23 08:06  

强化学习是机器学习一个重要分支[1],不同于传统的监督学习,它不需要大量数据和标签,而是通过Agent的某个行为策略导致的环境变化进行相应的奖赏和惩罚[2],以此来强化Agent的行为趋势。

一个基本的强化学习过程可以模式化为一个马尔科夫决策过程[3],它包括: 1、 一系列环境和Agent的状态集合S。

2、 一系列Agent的行为集合A。

3、 指的是经过行为a由状态s转变为状态s#8217;的概率。

4、 经过行为a状态由s转变为s#8217;所获得的即刻回报值。

5、 Agent所观测到的规则(随机的)。

通常来说,Agent的行为是受到限制的,它在每一个时间点t收到一个观测值,通常其中包含奖励 ,然后它从允许的集合中选择一个动作 ,然后送到环境中去,环境则变化到一个新的状态 ,然后决定了和这个变化( , , )相关联的奖励 ,强化学习Agent的目标就是尽可能得到多的奖励。

Agent所选择的动作是基于其历史的函数(也可以随机选择)。

和自始至终都以最优方式行动的Agent相比,它必须依据它长时间的行动序列进行推理,因此它当前所做出的行为也许不会即刻的最大利益,但就整体过程来看,它获得了较高的回报。

因此,强化学习对于包含长期反馈的问题比短期反馈的表现要更好。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

企业微信

Copyright © 2010-2022 毕业论文网 站点地图