图像分割外文翻译资料

2021-12-15 22:42:39

英语原文共 51 页

图像分割

图像分割是指将图像划分为一组可以覆盖图片的多个区域。很多任务的目标是使区域代表图像中的有意义区域，例如作物，城市区域和卫星图像的森林。在其他分析任务中，这些区域可能是一组边界像素，分组为线段和三维工业物体图像中的圆弧段。区域也可以定义为具有边界和特定形状的像素组，例如圆形或椭圆形或多边形。当感兴趣的区域没有覆盖整个图像时，我们仍然可以讨论分割，分成感兴趣的前景区域和要忽略的背景区域。

分割有两个目标。第一个目标是将图像分解成部分以供进一步分析。在简单的情况下，可以很好地控制环境，以便分割过程可靠地仅提取需要进一步分析的部分。例如，在关于颜色的章节中，提出了一种用于从彩色视频图像分割人脸的算法。如果人的衣服或房间背景与人脸没有相同的颜色成分，则分割是可靠的。在复杂的情况下，例如从灰度航空图像中提取完整的道路网络，分割问题可能非常困难，可能需要应用大量的领域建筑知识。

分割的第二个目标是进行表示方法的更改。将图像的像素组织成更高级别的单元，这些单元要么更有意义，要么可以更有效用于进一步分析（或两者）。一个关键问题是，是否可以使用不使用任何特殊领域知识的通用的自下而上方法对许多不同的领域执行分割。本章介绍了在许多不同领域中具有潜在用途的分割方法。基于区域和基于曲线的单元将在以下部分中讨论。使单个分段系统适用于所有问题的前景似乎很暗淡。经验表明，机器视觉应用的实现者必须能够从方法的工具集中进行选择，并且可能使用应用程序的知识来定制解决方案。

本章讨论了几种不同类型的分割算法，包括经典区域增长，聚类算法以及线和圆弧检测器。图10.1示出了将足球比赛的彩色图像分割成近恒色区域。图10.2显示了从玩具积木图像中提取的线段。在这两种情况下，请注意，人类标准的结果远非完美。但是，这些分段可能为更高级别的自动处理提供有用的输入，例如，通过编号识别玩家或识别要组装的部件。

识别区域

图像分割的区域应该相对于某些特征是均匀的，例如灰度级，颜色或纹理

区域内部应该简单，没有很多小孔。

相对于它们均匀的特征，分段的相邻区域应具有显着不同的值。

图10.3：欧几里得测量空间中的点集，可以分成三个点集群。每个群集由在某种意义上彼此接近的点组成。群集由圆圈内的ll图案指定。

每个部分的边界应该是光滑的，而不是粗糙的，并且应该在空间上准确。

因为严格均匀和均匀的区域通常充满小孔并且具有不规则的边界，实现所有这些所需的性能是困难的。坚持相邻区域的价值差异很大，可能导致区域合并，边界丢失。此外，就分割系统可用的低级特征而言，人类视为同质的区域可能不是同质的，因此可能必须使用更高级别的知识。本章的目标是开发适用于各种图像和各种高级分析的算法。

聚类方法

模式识别中的聚类是将一组模式向量划分为称为簇的子集的过程。例如，如果模式向量是实数对，如图10.3的点图所示，则聚类包括在欧几里德双空间中彼此“接近”的点的子集。

一般术语聚类是有许多不同的方法。我们将研究几种不同类型的聚类算法，这些聚类算法在图像分割中很有用。这些包括经典聚类算法，基于简单直方图的方法，Ohlander基于递归直方图的技术和Shi的图分区技术。

经典聚类算法

类中的一般问题是将一组向量划分为具有相似值的组。在图像分析中，矢量表示像素或有时围绕像素的小邻域。这些载体的组成部分可包括：

1.强度值
2.从它们派生的RGB值和颜色属性
3.计算的属性
4.纹理测量

可以使用与像素相关联的任何特征来对像素进行分组。一旦基于这些测量空间值将像素分组成簇，就可以使用连接的组件标记来连接区域。

在传统的聚类中，有K个簇C1,C2,...,CK表示m1,m2,...,mK。可以定义最小二乘误差测量，其测量数据与其指定的簇的接近程度。最小二乘聚类过程可以将可能的分区考虑到K个簇中并选择最小化D的那个。由于这在计算上是不可行的，所以流行的方法是近似的。一个重要的问题是K是否事先知道。许多算法都希望K作为用户的参数。其他人试图根据某些标准找到最佳K，例如保持每个簇的方差小于特定值。

迭代K-Means聚类K-means算法是一种简单的迭代爬山方法。它可以表示如下

从一组n维向量形式K-均值聚类

设置迭代次数为1

随机选择一组K代表m1(1) m2(1)...mk(1)

对每个向量 xi 计算D(xi; mk(ic)

该算法保证可以终止，但它可能无法在最小二乘意义上找到全局最优。可以修改步骤2以将该组矢量划分为K个随机簇，然后计算它们的均值。在给定迭代中改变聚类的矢量百分比很小之后，可以修改步骤5以停止。图10.4说明了将RGB空间中的K-means聚类算法应用于图10.1的原始足球图像

Isodata聚类是另一种使用拆分和合并技术的迭代算法，再次假设有k个簇C1,C2,...,CK表示m1,m2,...,mK。令k为簇k的协方差矩阵（如下所示）。如果xi是形式的向量，则每个均值mk是向量。

图10.5说明了将RGB空间中的isodata聚类算法应用于图10.1的原始足球图像。此群集映像是连接组件过程的输入，该过程产生了图10.1中所示的分段。等值线聚类的阈值v设置为RGB颜色空间立方体侧面的10％的大小。

基于简单直方图的方法

迭代分区重排方案必须多次遍历图像数据集。因为它们只需遍历一次数据，所以直方图方法可能涉及测量的最小计算时间{空间聚类技术

直方图模式搜索是一种测量空间聚类过程，其中假设图像中的同质对象本身表现为测量中的聚类空间，即直方图上的聚类。通过将聚类映射回图像域来完成图像分割，其中聚类标签的最大连通分量构成图像片段。对于灰度图像，测量空间聚类可以通过确定直方图中的谷并且将聚类声明为谷之间的值的间隔来完成。值为第i个区间的像素用索引i标记，它所属的区段是标签为i的所有像素的连通分量之一：第3章讨论的自动阈值技术是直方图模式搜索的一个例子双峰直方图

一般来说，灰度图像将具有多模式直方图，因此任何自动阈值技术都必须在图像中寻找显着的峰值以及将它们分开的山谷。这项任务说起来容易做起来难。图10.6显示了灰色调块图像的直方图。一个朴素的求谷算法可能会判断它是双峰的，并将单个阈值置于39到79之间。然而，试错法选择产生了三个阈值，产生了图10.7的四个阈值图像，显示了一些有意义的区域图像。这促使需要知识壁架指导的阈值技术，其中所选择的阈值取决于直方图和所得区域的质量/有用性。

Ohlander基于递归直方图的技术

Ohlander等人（1978）以递归的方式提出了基于直方图的聚类思想。该想法是执行直方图模式，首先在整个图像上搜索，然后在从所得到的聚类获得的每个区域上搜索，直到获得可以不再进一步分解的区域。他们首先定义一个掩码，选择图像中的所有像素。给定任何掩模，计算图像的掩蔽部分的直方图。测量{空间聚类应用于此直方图，产生一组聚类。然后，图像中的像素用它们所属的簇标识。如果只有一个测量{空间簇，则终止掩码。如果存在多个群集，则将连接的组件运算符应用于每个群集，从而为每个群集标签生成一组连接的区域。然后使用每个连接的组件生成放置在掩模堆栈上的新掩模。堆栈上的掩码表示进一步分段的候选区域。在连续迭代期间，堆栈中的下一个掩码选择直方图计算过程中的像素。对每个新掩码重复聚类，直到堆栈为空。图10.8说明了这个过程，我们称之为递归直方图{定向空间聚类。

对于普通的彩色图像，Ohta，Kanade和Sakai（1980）提出直方图不能在红色，绿色和蓝色（RGB）颜色变量上单独计算，而是在一组更接近Karhunen变换建议的变量上：: (R G B)=3, (R B)=2, and (2G R B)

施氏图分区技术

Ohlander / Ohta算法适用于人造物体和单色区域的相当简单的彩色场景，但不能很好地扩展到自然场景的复杂图像，在这些场景中它们在纹理区域中提供了许多微小区域。 Shi开发了一种方法，可以使用颜色，纹理或这些和其他属性的任意组合。他将分割问题描述为图分区问题，并开发了一种新的图分区方法，该方法简化为如下求解特征向量/特征值问题。

令G =（V; E）是其节点是测量空间中的点并且其边缘各自具有表示节点i和j之间的相似性的权重w（i; j）的图。分割的目标是将顶点的分区找到不相交的集合V1;V2;...; Vm使得集合内的相似性很高，并且不同的集合之间的相似性很低。

通过去除连接A中的节点与B中的节点的任何边缘，可以将图G =（V; E）划分为具有节点集A和B的两个不相交的图。可以计算两个集合A和B之间的不相似度作为已被移除的边缘的权重之和; 这个总重量称为切割。

制定分割问题的一种方法是在图中寻找最小切割，并递归地进行，直到区域足够均匀。然而，最小切割标准有利于切割小的孤立节点组，这对于找到大的均匀颜色/纹理区域是没有用的。 Shi提出了切割（A; B）定义的归一化切割以及A和全顶点集合V的关联：

有了这个定义，分割出小的孤立点集的切割将不会具有小的N切割值，并且产生小的N切割值的分区更可能在图像分割中有用。此外，由...给出的总归一化关联的相关度量

图10.8：递归直方图定向的空间聚类方案。原始图像有四个区域：草地，天空和两棵树。当前面具（如左上图所示）标识包含天空和树木的区域。对其直方图进行聚类会导致颜色空间中的两个聚类，一个用于天空，一个用于树。天空群集产生一个连通分量，而树群产生两个。三个连接组件中的每一个都成为pushe的掩模

Shapiro和Stockman测量给定集合中的节点彼此连接的紧密程度。它与N切割有关：

上述算法通过颜色和纹理导致图像的非常好的分割。图10.9说明了算法在自然场景的一些样本图像上的性能。虽然分割非常好，但算法的复杂性使其不适合在实时系统中使用

区域增长

区域增长不是分割图像，而是从图像中的一个位置（通常是左上角）开始，并尝试生长每个区域，直到被比较的像素与添加它们的区域太不相似。通常进行统计测试以确定是否是这种情况。 Haralick提出了以下区域增长技术，该技术假设一个区域是一组具有相同总体均值和var的连通像素

设R是与具有灰色调强度y的像素相邻的N个像素的区域：定义平均值X和散射

图10.9：原始灰度图像（a）和由Shi分割方法（b） - （f）产生的区域。在结果图像（b）中，所选区域是暗背景区域，并且以黑色显示。在所有其他结果中，所选区域以其原始灰色调显示，其余图像以黑色显示。（由Jianbo Shi提供。）

假设R中的所有像素和测试像素y是独立且相同分布的法线，则统计量具有TN1分布。如果T足够小，则将y添加到区域R，并使用y更新均值和散点：新的均值和散点由下式给出：

如果T太高，则值y不太可能来自R中的像素群：如果y与其所有相邻区域不同，则它开始其自己的区域。稍微更严格的链接标准可能要求y不仅必须足够接近相邻区域的平均值，而且该区域中的相邻像素必须具有足够接近的值

为了给过高差异的概念赋予精确的含义，我们可以使用水平统计显着性检验。分数表示具有N 1自由度的T统计量将超过值tN1（a）的概率。如果观察到的T大于tN1（a），那么我们宣布该差异是显着的。如果像素和片段确实来自相同的群体，则测试提供错误答案的概率是a

重要性级别a是用户提供的参数。对于小自由度，tN1（a）的值更高，对于更大的自由度，tN1（a）的值更低。因此，区域散射被认为是相等的，区域越大，像素的值必须越接近区域的平均值才能合并到区域中。这种行为倾向于防止已经很大的区域吸引许多其他附加像素，并且倾向于防止区域漂移意味着区域变大。图10.10说明了Haralick区域增长程序的运作

代表区域

生成一组图像区域的每个算法都必须存储它们以备将来使用。有几种可能性，包括原始图像上的叠加，标记图像，边界编码，四叉树数据结构和属性表。标记图像是最常用的表示。我们在下面描述每个表示

叠加

叠加是通过在原始图像的顶部上叠加一些颜色来显示从图像计算的区域的方法。许多图像处理系统将此操作作为其图像输出过程的一部分。通常，原始图像是灰色调图像，并且重叠颜色在灰色调上很好地突出，例如红色或白色。为了显示区域分割，可以将区域边界的像素转换为白色并显示变换的灰色调图像。有时，使用宽度超过一个像素来突出区域边界。图10.11a显示了所选黑暗区域的边界，包括深蓝色裁判的夹克和球员的数字，覆盖在灰色调的足球图像上。叠加的另一个用途是突出显示图像的某些特征。图10.11b重印了第1章中的工业零件图像，其中识别出的物体模型的投影叠加在原始灰色图像上

标记图像

标记图像是可用于进一步处理的区域的良好中间表示。这个想法是为每个检测到的区域分配一个唯一的标识符（通常是一个整数）并创建一个图像，其中一个区域的所有像素将具有其唯一标识符作为其像素值。大多数连通组件操作员（见第3章）都会产生这种输出。标记图像可以用作一种掩模，以识别某些操作中的区域的像素

计算区域属性，例如最佳椭圆的长轴的面积或长度。它也可以用灰色调或伪彩色显示。如果整数标签是小整数，在灰色调中看起来都是黑色，则可以对标记图像进行拉伸或直方图均衡，以获得更好的灰色调分布。本章前面的足球图像分割标记为灰色调的图像。

边界编码

区域也可以由它们在数据结构中的边界而不是图像来表示。最简单的形式只是每个区域的边界像素的线性列表。（参见本章后面的边界程序，它从标记的图像中提取区域边界。）点列表的变体是Freema

资料编号：[4993]

您需要先支付 30元 才能查看全部内容！立即支付

注册

找回密码