基于Qt的机器人路径规划仿真与实现开题报告

 2020-02-10 10:02
1.目的及意义(含国内外的研究现状分析)

1.1 项目简介

机器人技术是现代科学与技术的交叉和综合体现,它综合了控制论、机构学、信息和传感技术、人工智能和仿生学等多学科而形成的高新技术,集成了多学科的发展成果,代表高技术的发展前沿,是当今科技研究的热点方向。先进机器人技术的发展代表着一个国家的综合科技实力和水平,目前许多先进工业国家都已经将机器人技术列为本国 21 世纪高技术发展计划[1].

移动智能机器人是一类能够通过传感器感知环境和自身状态,实现在有障碍物的环境中勉强目标的自主运动,从而完成一定作业功能的机器人系统,导航技术是移动机器人技术的核心,而路径规划是导航研究的一个重要环节和课题[2].

1.2 路径规划简介

所谓路径规划是指移动机器人按照某一性能指标(如距离、时间、能量等)搜索一条从起始状态到达目标状态的最优或者最次的路径,路径规划期间路径规划技术在其中起着重要作用。在此期间,应全面掌握已知环境和未知环境,按照一定步骤进行路径规划,概括来讲,了解机器人对周边信息识别情况,借此完成障碍物分类,据经验可知,常见规划路径有四类,第一类即熟知环境中,参照障碍物动态运行情况进行路径规划;第二类即熟知环境中,参照障碍物静置位置进行路径规划;第三类即非熟知环境中,参照障碍物动态运行情况进行路径规划;第四类即非熟知环境中,参照障碍物静置位置进行路径规划。前两类路径规划技术又有全局路径之称,后两类路径规划技术又有局部路径之称。

根据移动机器人获取环境信息的多少和体系结构,移动机器人路径规划方法可以概括为以下三种类型[3]

1.基于环境模型的全局路径规划方法:基于环境模型的全局路径规划方法,是在环境中障碍物的形状、大小完全已知的情况下进行的规划方法,又称静态或离线路径规划方法。首先根据移动机器人的工作环境进行环境建模,然后再进行路径搜索。代表性方法主要有基于图的Dijkstra算法、A*算法[4]、D*算法等和基于采样的RRT算法等。考虑本文主要研究未知环境下的移动机器人路径规划,在此对于已知环境的路径规划不作深入讨论。

2.基于传感器信息的局部路径规划方法:对于环境信息未知的情况,需要根据传感器获得环境中障碍物、机器人状态等信息实时地进行路径规划。基于传感器信息的局部路径规划是一种动态规划,又称在线规划,是当前路径规划中的研究热点,并取得了一定研究成果。常用的路径规划方法主要有:人工势场法、模糊逻辑算法、遗传算法、模拟退火算法[1]、蚁群算法[2]等。其中人工势场法属于传统的路径规划算法,其它的算法属于智能路径规划算法。

3.基于行为的路径规划方法:基于行为的路径规划方法是根据Brooks提出的包容式结构建立的一种自底向上的路径规划方法,它是移动机器人路径规划方法的一种新的发展趋势。它把机器人导航的问题分解为若干个相互独立的行为单元,比如避碰、导向目标等。这些行为单元采用的行为互不相同,它们通过相互协作完成机器人导航任务。但是由于模拟过程较为繁琐,也不适合。

近年来,随着对于路径规划研究的深入,还有许多其他的方法。比如基于多元强化学习基础的行人仿真框架(Marl-ped)[5]的方法、基于学习分类器的多机器人路径规划[6]等使用框架来实现机器人路径规划的方法,在此不做过多阐述。

1.3机器学习方法在机器人路径规划中的应用

1.3.1强化学习在机器人路径规划中的应用

强化学习任务通常使用马尔可夫决策过程(Markov Decision Process,简称MDP)来描述,具体而言:机器处在一个环境中,每个状态为机器对当前环境的感知;机器只能通过动作来影响环境,当机器执行一个动作后,会使得环境按某种概率转移到另一个状态;同时,环境会根据潜在的奖赏函数反馈给机器一个奖赏。综合而言,强化学习主要包含四个要素:状态、动作、转移概率以及奖赏函数。[7]

强化学习作为一种重要的机器学习方法,为移动机器人智能地进行路径规划提供了有效途径。强化学习自学习及在线学习的特点,使其能够适应变化的环境,在移动机器人路径规划领域得到了广泛的应用,并取得了较好的效果[8]。但是强化学习在移动机器人路径规划的实际应用中还存在着一些问题有待解决和完善,比如连续状态和动作空间的泛化问题、探索和利用的平衡问题、奖赏函数的设计问题等。因此,以强化学习为基础的移动机器人路径规划技术具有重要的理论研究意义和实际应用价值[9]

Q 学习算法是由 W atkins 在 1989 年提出的类似于动态规划算法的一种强化学习方法 . 它提供智能系统在马尔科夫环境中利用经历的动作序列选择最优动作的一种学习能力 , 并且不需要建立环境模型.Q学习算法实际是 MDP(Markov decision processes)的一种变化形式.Watkins 采用lookup表来表示输入状态,证明了Q学习的收敛性. Szepesvari在一定条件下证明了Q学习的收敛速度. Williams 等人采用 Q 学习算法对倒摆系统进行实验研究,并与 Anderson 等人采用 AHC 方法进行了比较分析. 由于自身的特性,强化学习被广泛地应用在智能控制领域 , 许多学者都取得了令人满意的成果.Beom 利用模糊逻辑和强化学习实现了陆上移动机器人导航系统,机器人通过学习能够在未知的环境中运动,可以完成避碰和到达指定目标点两种行为. Winfried 采用强化学习来使昆虫机器人学会 6 条腿的协调动作.CarnegieMellon大学的 Sebastian 采用神经网络结合强化学习方式使机器人通过学习能够到达室内环境中的目标. [10]

另外还有一种方法是使用Boltzmann来进行策略选择,能够用于解决低维的路径规划问题,可以防止路径选择算法陷入局部最优解,以此达到全局最优解[11]

1.3.2深度强化学习在机器人路径规划中的应用

谷歌的人工智能研究团队DeepMind创新性地将具有感知能力的DL和具有决策能力的RI。相结合,形成了人工智能领域新的研究热点,即深度强化学习(Deep Reinforcement Learning,DRL),此后,在很多挑战性领域中,DeepMind团队构造并实现了人类专家级别的agent.这些agent对自身知识的构建和学习都直接来自原始输入信号,无需任何的人工编码和领域知识.因此DRL是一种端对端(end-to—end)的感知与控制系统,具有很强的通用性。其学习过程可以描述为:

(1)在每个时刻agent与环境交互得到一个高维度的观察,并利用DL方法来感知观察,以得到具体的状态特征表示;

(2)基于预期回报来评价各动作的价值函数,并通过某种策略将当前状态映射为相应的动作;

(3)环境对此动作做出反应,并得到下一个观察.通过不断循环以上过程,最终可以得到实现目标的最优策略.DRL原理框架如图1所示.[12]


深度强化学习是一种用于做决策学习的算法。该算法结合了深度学习以及强化学习各自的优点。深度学习善于做非线性的拟合,强化学习适合做决策学习。

您需要先支付 5元 才能查看全部内容!立即支付

该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找,微信号:bysjorg 、QQ号:3236353895;