基于单智能体Q-学习的公共品博弈模型及仿真开题报告

2020-04-12 03:04

1. 研究目的与意义（文献综述）

公共品指一种商品，其效用不可分割地影响整个公众，而不管其中任何个人是否愿意消费。公共品是社会正常存在与发展所必需的，具有社会性的物品或服务。公共品具有非竞争性性和非排他性的性质，非竞争性即指对于某一个事物，张三消费了但并不同时影响或减少李四对此的消费，比如国防设施。非排他性是指对于某一事物或服务，一个人消费并不排斥其他人消费或者说排斥成本很高，例如一些公共设施如道路桥梁等是以税收为资源进行建设的，但对于逃税的人，很难建立一种机制阻止他们使用公路。因此这种特性往往会产生搭便车现象，即有一部分人不劳而获，生物学意义上的人属于理性自私个体，而这种现象在所有人都是理性自私个体的情况下将最终导致公地悲剧，造成满盘皆输的局面。公共品博弈的目的就是以有限理性自私个体为主体，探索在何种条件与机制下，更多的人将会参与合作而不是不劳而获，这类研究在公共事业上具有积极的意义，例如环境保护中由于空气，土壤，等自然资源具有公共品的特性，每个生产企业都不希望为自己的污染买单即不处理污染物，因为如果花费一部分资金去处理污染物意为着自己产品的成本将提高，而如果其它企业不处理污染物，则会导致自己的企业因价格竞争而出局。面对这种情况每个个体既没有动力去保护环境，当受到环境恶化后造成的损失后也会因为即使自己付出而得不到回报去做出类似最后捞一把的短视行为。这时就需要政府去建立强力的机制对个人利益与集体利益间的矛盾进行调制，使个人在理性自私的条件下选择服从集体利益，从而达到利益最大化。

q-学习也称增强学习，所需解决的问题是一个能感知环境的自治代理，怎样通过学习选择能达到其目标的最优动作。q-学习在囚徒困境中面对随机算法时得分远高于随机算法，其得分随着折扣因子的增加而增加。在面对针锋相对算法时，q-学习算法的得分与针锋相对算法的得分相近，但始终不低于争锋相对算法的得分，其得分同样随着折扣因子的增加而得分增加。在面对不同算法时，q-学习代理会采用不同的策略，这反应了q-学习算法的高度适应性。因而可以将q-学习代理近似视作理性自私个体。

基于单智体q-学习的公共品博弈模型与仿真的研究目的是将能行进行q-学习的单智体视为理性自私个体，探索在何种条件下能够使理性自私个体选择合作从而促使集体利益最大化，这对公共事业的建设以及规章制度，奖罚体制的建立

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

2. 研究的基本内容与方案

本课题基于多智能体仿真平台repast，结合演化博弈论的基础知识和多智能体仿真技术，实现基于单智能体Q-学习的公共品博弈模型及仿真。有限理性的个体在规则网络环境中进行公共品博弈，在博弈过程中引入单智能体Q-学习进行自学习不断更新策略，以期在重复博弈的过程中找到最优策略。

设计中将使用复杂神经网络去构建若干智能个体重复进行公共品投资这一模型，智能体使用Q-学习机制对于过去投资盈亏进行学习，自行判断是否选择投资。可以预见在不考虑不平等厌恶的情况下，当投资收益特别大以至于只有一个人投资得到的收益也大于零时每个代理都会趋向去选择投资，但一般情况下投资收益不会特别大，当选择不投资而决定搭便车的人到达一定规模时，选择投资的代理将会出现亏损，而这种情况将最终导致没有代理愿意为公共品投资，从而造成所谓的公地悲剧。根据参考文献，时间奖励机制即当一项工程投资人数越多越早完成得到的基于时间奖励越大，当引入时间奖励机制时将有效激励低投资收益下的合作行为。同时可以建立惩罚机制对于那些搭便车者进行惩罚，但惩罚本身将耗费一定资源，从现实中来看将减少投资收益，并且被惩罚者在可能的选择条件下，既有可能为逃避惩罚而选择投资，也有可能会因惩罚感到愤怒从而造成其它的负面影响，对于这些情况很难进行模拟。每个代理的选择也将简化为投资或不投资而不去量化投资量的多少。最终将讨论各种机制对于使用Q-学习的单智能体选择投资公共品的影响。

3. 研究计划与安排

(1) 第1－3周：查阅相关文献资料，明确研究内容，学习毕业设计研究内容所需理论的基础。确定毕业设计方案，完成开题报告。安装好仿真工具repast。

(2) 第4－7周：掌握公共品博弈模型及q学习的基本原理，完成英文资料的翻译，学习java语言与repast的基础使用。

(3) 第8－10周：学习并完成基于多agent的仿真模型。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

4. 参考文献（12篇以上）

pourpanah, farhad.tan, choo jun. lim, chee peng.a q-learning-based multi-agent system for data classification[j].applied soft computing,2017,52:519-531.
linn,kristin a. laber, eric b. stefanski, leonard a.interactive q-learning for quantiles[j].journal of the american statistical association,2017,112(518):638-649.
剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

注册

找回密码