基于自适应共振理论和强化学习的避障算法研究文献综述

2020-04-14 08:04

1．目的及意义

移动智能体是一种具有环境感知、动态规划、运动决策等多种功能的综合系统，他包括常见的移动机器人、无人机等，能够按照预先给定的任务目标，不断感知环境状态，做出自主行为决策。

随着近年来移动智能体研究的不断深入，人工智能、信息融合等技术的不断进步，移动智能体迎来由人为参与阶段到智能自主控制阶段的重大突破。探讨移动智能体如何在未知可变的环境中进行自规划、自适应运动已成为无人系统领域、信息处理领域及控制工程领域的研究热点问题。自主移动智能体在民用、工业及军事领域都具有广泛的应用前景，发展自主移动智能体可以加快机器人、无人机产业现代化建设，提高人民生活水平，巩固国防建设。同时，自主移动智能体技术是一个多学科交叉领域，对模式识别、人工智能、自动化控制等学科提出了很高的要求。因此，开展自主移动智能体避障技术的研究对相关学科领域的发展具有重要的推动作用。

运动决策是实现自规划、自适应运动的关键，其目标就是在没有人为干预及先验知识的前提下进行自主控制。在一些特殊的未知复杂环境（如震后废墟、核辐射区等）、信息缺失或随机变化情况下，目前移动智能体还不能满足自主性、准确性、稳定性的联合需求，本课题开展基于无监督学习和强化学习方法的未知环境空间结构感知与避障算法研究，其中无监督学习方法具体采用自适应共振理论。在无需人为干扰的条件下，系统通过不断感知周围环境信息，生成优化行为策略，自主绕开障碍物完成低碰撞概率的运动，从而解决移动智能体面临的从确定条件下智能控制向非确定条件下自主控制的跨越等挑战性问题。

关于移动智能体环境感知及避障的方法研究，在确定性环境下的理论及实施方案已经取得了许多研究成果，非确定性环境下的研究相较于确定性环境并没有完善的理论体系及解决方案。王耀南根据生物激励神经网络机理，在障碍物之间的点引入假想的非障碍物相邻点，解决路径错判问题。苏黎世大学研发了一种监督算法Dronet，该算法通过学习骑行者或者汽车驾驶员的驾驶用例，实现探查并躲避障碍物。但是监督学习存在需要大量带标签的训练用例、数据集的完整性无法保证等缺陷。同时监督学习需要专家知识以及外部环境结构已知的先决条件不符合实际使用条件。在实际使用中，监督式算法在很大程度上依赖避障规则集的完备性，控制规则完全由专家知识而定，对于复杂的环境变化专家不一定可以给出全局性最优的规则，故在一些全局性的问题中无法达到最优解；同时由于工作环境的复杂性和多变性，难以确定外部环境结构，这就要求机器人在复杂可变的环境中具有自适应学习的能力，在与环境的不断交互中逐渐掌握有效的避障策略。强化学习理论则利用环境的反馈奖励作为隐含的标签，只需要定义奖励函数，即可解决人工标注标签的问题，尤其是近年兴起的深度学习理论将强化学习的适用范围从处理离散动作拓宽到处理连续动作。Google Deepmind团队于2015年提出深度Q网络（Deep Q Network,DQN），融合了人工神经网络和Q-learning方法，可以在与环境的不断交互中学习到一个高回报的状态-动作映射。在后续的研究中，Deepmind利用深度学习理论将强化学习应用拓宽到处连续动作集上。无监督学习有着复杂度低，无需理解并标记输入数据，支持在线自组织、自适应学习等优点。但目前基于无监督学习技术的避障方法研究很少，其原因在于无监督学习是为了寻找数据中的特征，而不是进行预测，更通俗的说，由于没有标签等专家知识，基于无监督学习技术的移动智能体无法输出具体动作。当前更多的研究集中在将无监督学习技术用于避障环境的预处理。斯坦福大学的Naveen Appiah 等人于2015年提出一种基于几何的聚类方法，为避障环境状态的特征选择提供了一种可取的思路。商汤科技在2018年提出一种结合单目相机深度、光流和相机姿态的无监督学习框架Geonet，通过提取并组合环境的几何关系，实现感知3D场景几何。采用无监督学习中的自适应共振理论和强化学习方法相结合，则可以规避上述限制，有助于实现完全自主的策略；并且自适应共振理论很好地契合了在线学习机制，由于不需要人工添加标签，所以采集的数据可以即时输入进行分类判断并进行新一轮的学习。

从个人意义上讲，当前智能体都朝着具有自组织、自学习、自适应的智能化方向发展，该课题有助于自己了解智能体的自主环境感知及避障机制的理论体系、工作原理及具体实施方案，有助于后续研究生生涯开展相关研究。

{title}

2. 研究的基本内容与方案

{title}

本毕业设计研究的基本内容是：在典型神经网络中引入无监督式在线学习机制，并应用于表示和融合机载传感器信息的过程，感知无规则立体空间；引入强化学习机制，继而建立“感知-动作”模型实现可准确检测障碍与通道的的无人机视觉导航系统。

本次毕业设计的具体目标是：微型飞行器可以在外界位置环境下实现完全自主避障及运动。

本次毕业设计逆采用的技术方案及措施：

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

注册

找回密码