一种创新的遥感影像分类算法：蚁群优化算法外文翻译资料

2022-09-27 11:28:32

英语原文共 11 页，剩余内容已隐藏，支付完成后下载完整资料

一种创新的遥感影像分类算法：蚁群优化算法

Xiaoping Liu, Xia Li, Lin Liu, Jinqiang He, and Bin Ai

摘要：本文提出了一种以提高基于群智能的遥感应用的分类性能的新的方法。传统的统计分类方法由于有严格的假设条件导致在解决复杂分类问题时有一定的局限性。例如，遥感图像波段之间的数据相关性导致在使用统计方法时，难以产生令人满意的分类结果。在本篇文章中，基于群智能的蚁群优化算法被用来改进分类效果。由于这些正反馈机制，蚁群优化算法考虑了属性变量之间的相关性，因而避免了波段之间的数据相关性问题。离散化技术没有和蚁群优化算法结合，因而分类规则能够从遥感影像大数据集中归纳得出。在广州地区的蚁群优化算法试验，表明了它比C5.0决策树有更简单的规则集和更好的分类精度。

关键词：蚁群优化算法，人工智能，分类，遥感影像。

0绪论

影像分类，即从遥感影像数据中提取有用信息，已经成为遥感研究的一个重点课题之一[1],[2]。例如，影像分类经常用来提取土地利用/覆盖信息。地方、区域和全球环境变化跟土里利用/覆盖联系越来越紧密，并且它随时间变化[3]。遥感影像已经成为提取土地利用/覆盖信息的一种重要来源。在过去的三十年，大量应用于遥感影像分类的方法得到了发展，包括统计分类，知识型系统（KBS），神经网络和其他人工智能方法[4]。然而，由于遥感分类的复杂性，这些方法仍然具有局限性。例如，最常用的统计方法--最大似然分类--根据样本数据中未知和已知像素之间的可能性进行分类[5],[6]。此方法要求每类数据尽可能遵循正态分布。用来评价分类方法的参数的训练样本的质量，是整体分类精度的关键。另一种分类方法，即知识型系统分类法，通常集成了光谱信息，空间结构和专家经验[7]-[9]。由于知识库系统并不要求数据遵循正态分布，因而适用于大多数情况。它们的分类规则容易理解，且分类处理过程类似于人类推理。在统计分类的有些情况，知识型系统能够改善分类精度。然而，在从专家经验获取和吸收时，受限于其长期且重复的处理过程，这种分类方法并没有得到广泛的应用[2]。神经网络分类方法，具有自适应特点，在复杂情况和并行运算时非常理想[10]-[12]，但是分类规则解释很困难。另外，它们容易对训练集产生过拟合，得到局部最优和收敛缓慢的问题。

近年来，人工智能技术和理论为遥感数据的高效分类提供了新的契机[13]。例如，蚂蚁智能已经被用来解决复杂的问题分类问题。蚁群优化（ACO），计算方法源于天然的生物系统，最早是由Colorni等人1991提出[14]。蚁群算法是一种模拟真实蚂蚁在搜索他们的食物源的最短路径的行为的计算优化算法。蚁群算法通过利用分布式计算、启发式方法、从过去的经验知识来寻找最优解决方案[15]。蚁群算法的主要特点是通过利用蚂蚁在沿线路敷设信息素来间接通信。另一个特点是正反馈机制，有利于快速发现的最佳解决方案[16][17]。因此，蚁群算法本质上是一个复杂的多智能体系统，底层个体之间的相互作用来完成整个蚁群的复杂行为。这种方法已被证明是强大的和灵活的[18]。

利用蚁群算法已经在求解旅行商问题，数据聚类，组合优化，以及路由网络等取得满意的结果[19]–[22]。然而，蚁群算法在分类规则归纳的研究非常有限，虽然ACO是非常成功的全局搜索比其他规则归纳算法，如决策树能更好地应对属性相关性[23]。Parpinelli等人[ 24 ]，[ 25 ]首先提出利用ACO探索分类规则称为蚂蚁矿机。他们的研究表明，蚂蚁矿工比一些决策树方法能产生更好的精度和更简单的规则。与传统的统计方法相比，蚁群算法具有许多优点[23], [26]。首先，蚂蚁矿工是自由的，这并不需要训练数据遵循一个正态分布。其次，蚂蚁矿工是一种规则归纳算法，它比数学方程更为明确和易于理解。最后，蚂蚁矿工需要最小的问题域的理解。

图1 蚂蚁在寻找食物时的路径选择行为

蚂蚁矿工与决策树方法是不同的，如C5。C5的熵测度是一种局部的启发式测度[ 27 ]，它认为在一个时间只有一个属性，因此，它对属性相关性问题非常敏感。然而，蚂蚁矿工，信息素更新能更好地处理与属性相关问题，因为信息素更新是直接基于作为一个整体的规则的性能[ 25 ]。因此，鉴于这些优点，在改进遥感分类蚂蚁矿工潜力巨大。本文提出了一种能够发现分类规则的蚁群算法用于遥感图像分类。通过模拟蚂蚁寻找食物的行为，可以发现优化的分类规则。一个离散化技术被纳入模型中，涉及大量的数据，以提高分类性能。

1蚁群算法

蚁群算法是基于蚂蚁寻找食物没有利用视觉信息的行为寻找最短路径[ 17 ]。动物行为学家已经发现交换关于前行路径的信息，通过蚂蚁沿着他们的路线释放信息素进行交流。蚂蚁选择一条具有最大信息素量的路径。随着信息素散失，较短的路比一条更长的路线将有更高的浓度信息素。吸引更多蚂蚁到较短的路线，进一步增加了沿着较短的路线的信息素的浓度。这样，蚂蚁能够找到从他们的巢到食物来源的最短路线，而不使用视觉线索。这个过程可以被描述为一个正反馈的循环，其中一个蚂蚁选择路径的概率与已通过该路径的蚂蚁的数量成正比[17]。

这种正反馈机制使ACO具有自适应。一个蚁群寻找食物的过程中所示图1。如果蚂蚁的巢穴和食物来源之间没有障碍，最短的路线是在一条直线[图1（a）]。如果一个障碍物切断了位置的直线路径[图1（b）]，蚂蚁在选择相同的概率和残留信息素的路线上选择不同的路线。由于路线F–G–H比F–O–H短，因而蚂蚁选择F–G–H的路线比那些选择路线F–O–H会更早到达食物源。因此，H–G–F路线有较高浓度的信息素比在路线H–O–F，因此，它会吸引更多的蚂蚁[图1（c）]。在最后阶段，所有的蚂蚁都会选择路线H–G–F，因为较长的路线上的信息素会逐渐消失[图1（d）]。

图2 基于蚁群算法的遥感图像分类流程图

2基于蚁群算法的遥感影像分类

本文修改和扩展蚁群算法对遥感图像分类归纳规则（图2）。在基于规则归纳，从属性到类的映射类似于路径搜索的蚁群。一个属性节点对应于遥感图像的亮度值。一个属性节点只能选择一次，且必须与一个类节点关联。如图3所示，每一条路线对应一个分类规则，并发现一个分类规则可以被视为寻找最佳路线。规则可以在开始时随机生成。规则可以表示为

如果（条目1和条目2和。。。。）

然后（类别）

当（条目1和条目2。。。）使用逻辑运算符和逻辑运算符“和”，每一项可以表示为一个三元组（波段，算子，亮度值），（类）就是最后预测的类。

图3 与蚂蚁矿工分类规则相对应的路径。

应该注意的是，遥感图像的原始值通过使用离散化技术被划分成一个有限的时间间隔，促进路由搜索。例如，如果波段Bi的亮度值有一个范围从0到255，离散化过程分为离散的时间间隔（0 - 13），（14 - 25），（26 - 41）等等。这可以减少可能的规则数，有助于提高蚁群算法的效率。以下部分提供了一个将蚁群算法应用于遥感分类的详细的程序。

2.1遥感数据离散化

现有的规则归纳算法，如决策树和粗糙集，通常处理离散数据。连续属性必须被离散成一个有限数量的水平或离散值[ 28 ]。例如，C5，根据“信息增益”计算的熵的基础上构建的分类的决策树[ 29 ]。CART采用Gini准则对连续属性的离散化处理[ 30 ]。SIPINA利用了基于不确定性测量的FUSINTER准则[ 31 ]。许多应用程序涉及使用的连续属性，然而这些算法不能直接处理。离散化在处理连续属性规则生成是一种有效的技术[ 32 ]。本程序提高了机器学习的速度和精度[ 33 ]。在一般情况下，通过决策树或感应规则使用离散数据的结果通常比那些使用连续值更有效且更准确的[ 34 ]。

虽然遥感数据的亮度值是离散整数（0 - 255），仍然每个波段有太多的独特的值。这将影响蚁群算法的效率和规则的质量。在本文中，利用离散化技术将原来的亮度值分为一个较小的间隔数。选择合适的方法，这是非常重要的，因为它决定了生成规则的整体质量。而且，本文采用一个熵的方法来衡量的亮度值的离散化断点的重要性[ 35 ]。

为了方便表达，决策表被定义为一个表的信息由四个元素组成(U, R, V, f)，其中U指一组对象，即域；R=Ccup;D，C和D分别是一个条件属性集和决策属性集。在本文中，C和D分别是指卫星图像的波段和土地利用类型的分类。V代表各个波段的范围值，F是信息函数。

如果Xsube;U是一个训练子集组成的| X |样本，其中kj样本指出决策属性j（j = 1,2，hellip;，R），然后对训练集的信息熵是[ 35 ]，[ 36 ]

其中一个较小的值的熵表示，该X集的确定由几个主要的决策属性值和一个较小程度的乱序。类的总数由n表示。C ^a_i是波段a中第i个断点。样本的决策属性j（j = 1,2，hellip;，R）属于集合X，可分为两种类型，即，其中分为比小的和与相等或者更大的两类。

因此，集合X分为Xl 和Xr，其信息熵计算如下[ 32 ][ 33 ]：

其中

并且是带有比小的属性值的类别J总数，是带有比大或者相等的属性值的类别J总数。

表1提供了一个简单的例子来解释在十种情况下和的含义。假定断点60是4的第二断点（i= 2），类的数目是5（N=5）。下面的结果可以得到:

根据（5）和（6），此外，断点的信息熵的一个i相对设置的定义为

假如L= { Y1，Y2，hellip;，Ym }是来自集P断点划分的等效采样，从决策表中选择，然后新的信息熵在断点Cnotin;P的加入变为

在一个较小的H（c,L）表示，新的等效子集的决策属性值的划分往往是更单调增加的断点后，这将是更重要的。

表1 在波段4中10中类别的值

图4 根据信息熵的离散属性值的流程图

如果P是定义为断点设置，L集与断点集P等价样本，B为断点被选择集，每个cisin;B、 bandmin lt; Clt; bandmax。H为决策表的信息熵的过程，根据信息熵的离散属性值可以如下描述[ 35 ]（见图4）

1）每个cisin;B,计算H（c,L）

2）如果Hle;minH(c, L)，然后结束

3）选择并添加断点Cmin，使H（c，L）最小的步骤。

4）对于所有的Xisin;L，如果等效是分为X1和X2和Cmin，则X可以从L，而等价类X1和X2可以加入L.

5）如果每一个相同的样本取得相同的结果，终止循环。如果没有，返回到步骤1。

2.2利用蚁群算法进行规则挖掘

蚂蚁矿工已被应用到发现的分类规则，利用这些离散的数据。这些规则是根据一种类似于蚂蚁的食物的集体过程的方法被发现的。蚂蚁矿工使用一个连续的覆盖算法发现一个列表的规则，涵盖所有或大部分的训练样本（像素）的训练集。首先，规则列表是空的，然后蚂蚁矿工获得一组有序的规则，通过迭代找到一个“最佳”的规则，涵盖了训练集的子集。接下来，蚂蚁矿工将这一“最佳”的规则添加到发现的规则列表中，并移除规则所涵盖的训练样本，直到达到一个停止准则为止。如果在规则集上没有以前的规则是适用的，将有序规则应用于训练样本[37]。

术语选择是构建规则的蚁群算法的重要一步。从理论上讲，术语的选择完全是随机的，但这项搜索需要密集的计算。一个启发式函数的设计，以引导搜索，使计算时间可以大大减少。信息熵是用来定义这个函数，其中每个术语的启发式值是成正比的分类能力[ 25 ]。在本文中，基于数据的统计属性的启发式函数（频率）的设计，其中的条件项目termij启发式值eta;ij定义如下[22]:

其中eta;ij表示基于密度的termij启发价值，和termij是分类规则条件的项目，Tij指训练样本拟合这一条件的数量，和freqtwij是类频率赢得Tij。满足规则的条件部分的记录应在最终规则得到消除。因此，最大值和不断更新直到发现最终规则。

另外两个参数对于规则建设也很重要的，即信息素的量和被选中的术语的概率。当一

路由被一个人工蚂蚁发现，在这条路线中的所有节点的信息素的量将被初始化为相同的值。

其中为条件的信息素量，A是数据空白栏的属性总和（排除类别属性），bi是属于任何属性i的任意可能值。

轮盘赌选择的方法决定哪项将包括根据启发式价值构建路径（eta;ij）和信息素的厚度（tau;ij）。一个术语将被添加到当前规则的概括为

一个长期被选中的概率取决于频率和信息素更新。这使得蚂蚁矿工在搜索空间中，其规则建设过程更坚固且不易陷入局部最优解，由于信息素更新提供的反馈有助于纠正一些由错误的频率测量。而在决策树算法中，树的建设过程，熵的测量是唯一被使用的启发式函数[ 25 ]。选定的术语将被添加到规则中，直到所有的属性都被选中，以形成一个完整的分类规则。这一规则的有效性，可以通过以下的方程进行评估[25]:

其中TruePos（真阳性）是通过规则正确预测的总阳性例数，FalsePos（假阳性）是通过规则错误预测的总阳性例数，TrueNeg（真阴性）是通过规则正确预测的总阴性例数，并FalseNeg（假阴性）是通过规则错误预测的总阴性例数。该Q值越大，创建的规则可靠性越高。

2.3规则剪枝

下一步是修剪发现的规则，提高分类性能。规则修剪是规则归纳中的一

剩余内容已隐藏，支付完成后下载完整资料

资料编号：[150424]，资料为PDF文档或Word文档，PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容！立即支付

注册

找回密码