登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 文献综述 > 计算机类 > 计算机科学与技术 > 正文

深度强化学习机器人避障研究文献综述

 2020-06-03 09:06  

研究背景

近些年,人工智能的研究又掀起新高潮。人工智能技术在美国、欧洲和日本发展迅速,并且带动了多种信息科学领域的发展,信息学、控制学、仿生学、计算机学等领域技术均被运用到人工智能应用中去。人工智能与机器人避障的联系也日益紧密。

现有的多种机器人避障算法的实现:

1. 人工势场避障控制法

  人工势场避障控制法,是一种比较简单又新颖的做法,是另一种仿生学,仿照物理学中电势和电场力的概念,建立机器人工作空间中的虚拟势场,按照虚拟势场力方向,实现局部路径规划。通过构造目标位姿引力场和障碍物周围斥力场共同作用的人工势场,来搜索势函数的下降方向,然后寻找无碰撞路径。

  听起来很玄乎,但是早已经有应用产品了,Khatib曾应用于移动机器人的导航上。但是并没有得到大规模应用。因为即使对于简单环境很有效,但是都是在静态的研究中得出的,而没有考虑障碍物的速度和加速度的影响,所以在动态避障控制中,人工势场法避障控制不是很理想。因为在复杂的多障碍环境中,不合理的势场数学方程容易产生局部极值点,导致机器人未到达目标就停止运动,或者产生振荡、摆动等现象。另外,传统的人工势场法着眼于得到一条能够避障的可行路径,还没有研究出什么最优路径。2. 模糊逻辑控制避障法

  模糊逻辑控制避障法出现得并不晚,1965年美国的一位教授就提出过模糊逻辑的概念。1974年,英国伦敦大学一位教授利用模糊控制语句组成的模糊控制器控制锅炉和气轮机的运行获得成功,开始将模糊数学应用于自动控制领域,包括机器人领域。由于不必创建可分析的环境模型,目前模糊逻辑方法在解决机器人避开障碍物问题上己经有了大量的研究工作。另一个独特优点也让用专家知识调整规则成为可能,因为规则库的每条规则具有明确的物理意义。

  在模糊逻辑控制避障法中,模糊控制规则是模糊控制的核心。当前研究工作的新趋势之一是它的渐增本质,特别是在模糊控制规则的自动生成方面,即连同自动模糊数据获取,给予算法在线模糊规则学习能力,数据获取和规则生成均自动执行。

3. 栅格法避障控制法

  这属于用启发式算法在单元中搜索安全路径。赋予每个栅格一个通行因子后,路径规划问题就变成在栅格网上寻求两个栅格节点间的最优路径问题。搜索过程多采用四叉树或八叉树表示工作空间。

  栅格法以基本元素为最小栅格粒度,将地图进行栅格划分,比如基本元素位于自由区取值为0,处在障碍物区或包含障碍物区为1,直到每个区域中所包含的基本单元全为0或全为1,这样在计算机中就较容易建立一幅可用于路径规划的地图。

  栅格粒度越小,障碍物的表示会越精确,也就更好避障。但往往会占用大量的储存空间,而且算法也将按指数增加。

4.  声波避障控制法

  声波避障行为能够实时监测长距离超声波传感器,为机器人搜索开阔路径。当机器人离障碍物还有一定距离时,超声波传感器就能够检测到相关信息,并据此控制机器人离开。

  然而,超声波传感器对非常接近的物体会探测不到,这个距离称为物理探测盲区。在刚发射信号的时候,返回信号的阈值会被设定得很高以防止发射波直接触发接收器,因此如果检测的距离很短、阈值没有下降,返回信号已经到达接收器,这时接收器会认为这个返回信号是刚发出的信号从而拒绝接收,使超声波传感器形成一个探测盲区,没法对近距离物体探测。

  另一个缺陷是,如果在一个比较小的转弯角度上安装有平滑的表面,该表面能够将声纳波束向前反射,而不是反射回机器人。在这种情况下,由于没有回波返回,传感器就会产生一次漏报,机器人也会因此认为在自己行走的路径上没有障碍物存在。此时,声波避障行为不能得以触发,也就无法避障。

5.  激光雷达避障控制法

  近年来,激光雷达在移动机器人导航中的应用日益增多。这主要是由于基于激光的距离测量技术具有很多优点,特别是其具有较高的精度。

  激光雷达与其它距离传感器相比,能够同时考虑精度要求和速度要求,这一点特别适用于移动机器人领域。此外,激光雷达不仅可以在有环境光的情况下工作,也可以在黑暗中工作,而且在黑暗中测量效果更好。不过,该传感器也有一些相应的缺点,比如安装精度要求高、价格比较昂贵等。

参考文献:

[1] Gao Xin,Jia Qingxuan,Sun Hanxu,Chen Gang . Real-time dynamic system to path tracking and collision avoidance for redundant robotic arms[J].《The Journal of China Universities of Posts and Telecommunications》.2016

[2] Shih-An Li . Dynamic Obstacles Avoidance Based on Potential Field Implement on Mobile Robot[A]. 中国自动化学会控制理论专业委员会、The Society of Instrument and Control Engineers (SICE).Proceedings of the Society of Instrument and Control Engineers Annual Conference 2015[C].

[3] Y.C.Lei . Research on Obstacle Avoidance of Fire-Fighting Robot Based On Fuzzy Control[A]. Science and Engineering Research Center.Proceedings of 2015 International Conference on Computer Information Systems and Industrial Applications(CISIA2015)[C].Science and Engineering Research Center.2015

[4] Volodymyr Mnih,Koray Kavukcuoglu,David Silver,Playing Atari with Deep Reinforcement Learning.

[5] Sivaranjini Srikanthakumar. Optimisation-based Verification Process of Obstacle Avoidance Systems for Unicycle-like Mobile Robots[J]. International Journal of Automation amp;amp; Computing.2011

[6] A.Filipescu. Fuzzy Control and Bubble Rebound Obstacle Avoidance of a Mobile Platform Used as Robotic Assistant[A]. 中国自动化学会控制理论专业委员会(Technical Committee on Control Theory,Chinese Association of Automation).第二十九届中国控制会议论文集[C].中国自动化学会控制理论专业委员会(Technical Committee on Control Theory,Chinese Association of Automation). 2010

[7] 薛晗,马宏绪. Swarm intelligence based dynamic obstacle avoidance for mobile robots under unknown environment using WSN[J] .《Journal of Central South University of Technology》.2008

[8] Formation Control of Mobile Robots with Active Obstacle Avoidance[J]. 《自动化学报》.2007

[9] Kai Arulkumaran,Nat Dilokthanakul,Murray Shanahan,Classifying Options for Deep Reinforcement Learning,《Statistics》 2016

[10] X.Q.Guan. A Redundant DOFs Manipulator Motion Obstacle Avoidance Algorithm[A]. Advanced Science and Industry Research Center.Proceedings of 2015 International Conference on Automation,Mechanical and Electrical Engineering(AMEE 2015)[C].Advanced Science and Industry Research Center.2015

[11]Y.C.Lei. Research on Obstacle Avoidance of Fire-Fighting Robot Based On Fuzzy Control[A]. Science and Engineering Research Center.Proceedings of 2015 International Conference on Computer Information Systems and Industrial Applications(CISIA2015)[C].Science and Engineering Research Center.2015

[12] S Mahadevan,J Connell, Automatic programming of behavior-based robots using reinforcement learning, 《Artificial Intelligence》, 1992, 55(2#8211;3):311-365

[13] P Piggott,A Sattar ,Reinforcement learning of iterative behaviour with multiple sensors, 《Applied Intelligence》, 1994, 4(4):351-365

[14] 乔俊飞,侯占军,阮晓钢,基于神经网络的强化学习在避障中的应用, 中国过程控制会议, 2008

[15] 陈春林 陈宗海 卓睿 周光明,基于分层式强化学习的移动机器人导航控制,南京航空航天大学学报,2006, 38(1) ,TP24 TP18

[16] 赵冬斌 邵坤 朱圆恒 李栋 陈亚冉 王海涛 刘德荣 周彤 王成红,深度强化学习综述:兼论计算机围棋的发展,《控制理论与应用》2016年 第6期

[17] 唐鹏,李小坚,强化学习在移动机器人避障上的应用,《科学家》2016年第5期

[18] 陈兴国 俞扬 南京邮电大学计算机学院/软件学院,强化学习及其在电脑围棋中的应用,《自动化学报》2016年 第5期

[19] 史忠植,突破通过机器进行学习的极限,《科学通报》2016年 第33期

[20]IEEE Transactions on Neural Networks and Learning Systems special section on deep reinforcement learning and adaptive dynamic programming,《IEEE Transactions on Neural Networks and Learning Systems》 2017

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

企业微信

Copyright © 2010-2022 毕业论文网 站点地图