登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 文献综述 > 电子信息类 > 电子科学与技术 > 正文

基于单智能体Q-学习的公共品博弈模型及仿真文献综述

 2020-04-30 04:04  

1.目的及意义

公共品指一种商品,其效用不可分割地影响整个公众,而不管其中任何个人是否愿意消费。公共品是社会正常存在与发展所必需的,具有社会性的物品或服务。公共品具有非竞争性性和非排他性的性质,非竞争性即指对于某一个事物,张三消费了但并不同时影响或减少李四对此的消费,比如国防设施。非排他性是指对于某一事物或服务,一个人消费并不排斥其他人消费或者说排斥成本很高,例如一些公共设施如道路桥梁等是以税收为资源进行建设的,但对于逃税的人,很难建立一种机制阻止他们使用公路。因此这种特性往往会产生搭便车现象,即有一部分人不劳而获,生物学意义上的人属于理性自私个体,而这种现象在所有人都是理性自私个体的情况下将最终导致公地悲剧,造成满盘皆输的局面。公共品博弈的目的就是以有限理性自私个体为主体,探索在何种条件与机制下,更多的人将会参与合作而不是不劳而获,这类研究在公共事业上具有积极的意义,例如环境保护中由于空气,土壤,等自然资源具有公共品的特性,每个生产企业都不希望为自己的污染买单即不处理污染物,因为如果花费一部分资金去处理污染物意为着自己产品的成本将提高,而如果其它企业不处理污染物,则会导致自己的企业因价格竞争而出局。面对这种情况每个个体既没有动力去保护环境,当受到环境恶化后造成的损失后也会因为即使自己付出而得不到回报去做出类似最后捞一把的短视行为。这时就需要政府去建立强力的机制对个人利益与集体利益间的矛盾进行调制,使个人在理性自私的条件下选择服从集体利益,从而达到利益最大化。

Q-学习也称增强学习,所需解决的问题是一个能感知环境的自治代理,怎样通过学习选择能达到其目标的最优动作。Q-学习在囚徒困境中面对随机算法时得分远高于随机算法,其得分随着折扣因子的增加而增加。在面对针锋相对算法时,Q-学习算法的得分与针锋相对算法的得分相近,但始终不低于争锋相对算法的得分,其得分同样随着折扣因子的增加而得分增加。在面对不同算法时,Q-学习代理会采用不同的策略,这反应了Q-学习算法的高度适应性。因而可以将Q-学习代理近似视作理性自私个体。

基于单智体Q-学习的公共品博弈模型与仿真的研究目的是将能行进行Q-学习的单智体视为理性自私个体,探索在何种条件下能够使理性自私个体选择合作从而促使集体利益最大化,这对公共事业的建设以及规章制度,奖罚体制的建立

起着良好的参考作用。

基于值函数的方法比如Q-learning存在策略退化问题,即值函数估计已经很准确了,但通过值函数得到的策略依然不是最优。这一现象类似于监督学习中通过后验概率来分类,后验概率估计的精度很高,但得到的分类可能仍然是错的,尤其是当强化学习使用值函数近似时,策略退化现象非常常见。

国内就社会合作问题的研究刚刚起步,虽然早期有这方便的问题意识,但还谈不上研究。近年来,一些研究者开始就社会合作问题进行探讨,这些探讨可以分为三种类型。第一种是综述性的讨论,比如叶航、汪丁丁和贾拥民对神经元经济学相关成果的讨论,其中涉及了社会偏好与社会合作。第二种是对社会合作中一些相关理论问题做了理论思考。第三种属于实证研究,其中一类研究,比如叶航、陈叶烽和贾拥民基于演化路径利用计算机仿真技术研究了公共合作中的社会困境问题,并给出了走出困境的一些思路,董志强则构建了一个初步的演化模型,讨论了公平偏好的演化问题。



{title}

2. 研究的基本内容与方案

{title}

本课题基于多智能体仿真平台repast,结合演化博弈论的基础知识和多智能体仿真技术,实现基于单智能体Q-学习的公共品博弈模型及仿真。有限理性的个体在规则网络环境中进行公共品博弈,在博弈过程中引入单智能体Q-学习进行自学习不断更新策略,以期在重复博弈的过程中找到最优策略。

设计中将使用复杂神经网络去构建若干智能个体重复进行公共品投资这一模型,智能体使用Q-学习机制对于过去投资盈亏进行学习,自行判断是否选择投资。可以预见在不考虑不平等厌恶的情况下,当投资收益特别大以至于只有一个人投资得到的收益也大于零时每个代理都会趋向去选择投资,但一般情况下投资收益不会特别大,当选择不投资而决定搭便车的人到达一定规模时,选择投资的代理将会出现亏损,而这种情况将最终导致没有代理愿意为公共品投资,从而造成所谓的公地悲剧。根据参考文献,时间奖励机制即当一项工程投资人数越多越早完成得到的基于时间奖励越大,当引入时间奖励机制时将有效激励低投资收益下的合作行为。同时可以建立惩罚机制对于那些搭便车者进行惩罚,但惩罚本身将耗费一定资源,从现实中来看将减少投资收益,并且被惩罚者在可能的选择条件下,既有可能为逃避惩罚而选择投资,也有可能会因惩罚感到愤怒从而造成其它的负面影响,对于这些情况很难进行模拟。每个代理的选择也将简化为投资或不投资而不去量化投资量的多少。最终将讨论各种机制对于使用Q-学习的单智能体选择投资公共品的影响。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

企业微信

Copyright © 2010-2022 毕业论文网 站点地图