具有自动模型切换的混合状态冷凝跟踪器外文翻译资料

2022-12-24 16:55:01

英语原文共 6 页，剩余内容已隐藏，支付完成后下载完整资料

具有自动模型切换的混合状态冷凝跟踪器

迈克尔·伊萨德和布莱克

牛津大学，牛津大学OX1 3PJ，英国。

misard@robots.ox.ac.uk，ab@robots.ox.ac.uk

摘要

有一个在计算机视觉相当大的兴趣社区代表和建模动议。运动模型用作预测因子来增加

视觉跟踪器的鲁棒性和准确性，以及用于手势识别的分类器。本文介绍随机抽样方法发展显着到低运动之间的自动切换模型作为跟踪过程的自然延伸。贝叶斯混合状态框架被描述它的一般性，以及弹跳平衡的例子用于证明混合状态模型可以显示大大改善了重杂乱的跟踪性能。方法与问题的相关性然后使用跟踪器调查手势识别这是能够自然绘制的动作一只手拿着一支笔，并按照状态切换手的动议。

1、介绍

有一个在计算机视觉相当大的兴趣社区代表和建模动议[1，3，4]。学习动力学模型，形式随机偏微分方程（SDE）的解，已经使用[1]提高敏捷性和鲁棒性的视觉跟踪器。复杂性有限制然而，基于SDE的模型是自然的泛化是允许多个模型，与酌情在模型之间切换。这允许更广泛的运动范围得到支持失去准确预测的优势，而且在给定时间使用的模型也可以作为识别器区分不同的动作。一个混合离散/连续跟踪器结合了能力的连续运动模型跟踪复杂

概述了强大的基于国家的强大系统例如用于描述顺序动作在隐马尔科夫模型中。基于卡尔曼滤波的技术在多个车型之间切换已知在对照文献[2,10]中。为了准许多个模型有必要表示多个假设，而运动是不明确的。但是，扩展的卡尔曼滤波器允许多个假设已知面对组合爆炸。

现有手势识别研究，使用两者之一基于状态[12,3]或连续值[5,9]模型将识别过程分为两个阶段。首先提取一些低维特征向量从图像（例如，图像时刻，或输出从跟踪器）。只有当这些信息有被提取的是对低维度的识别数据。很有潜力的优势多模式的方法是识别和特征提取是联合执行的，所以形式的预期手势可以用来指导功能搜索，潜在地使它更有效和健壮。现有的手势识别系统也经常工作相当粗糙的形状，而一些应用程序需要一个允许详细连续评估的框架形状模型，而不是一个数量可能的对象配置。

随机抽样[7,6,8]以解决需要表示多个假设跟踪时; 冷凝算法[7]具有被应用于杂乱的视觉跟踪问题。本文扩展了凝聚框架允许混合状态对象表示组合连续值形状参数离散标签编码离散集合中的哪一个的运动模型是有效的。联合p.d.f. 为了导出了混合状态模型，并且由于结构的算法，执行模型切换跟踪跟踪。因此，两个好处是显而易见的跟踪某些类别的运动的表现可以通过建设更适合增加模型和离散参数标注模型切换可以作为信息来源自己的权利。的抽样框架的灵活性允许使用多种类型的模型，哪些不限于SDE的解决方案。

2、冷凝算法

冷凝的完整描述和推导

算法在[7]中给出。输出的输出在a

给定的时间步长t是整个概率的近似

分配可能的对象位置，代表

作为加权样本集fs (n) t ; n = 1; : : : ; Ng重量pi;（n）t。迭代过程应用于样本集如图1所示。在图的顶部，来自时间步长t的输出1是加权的样本集f（s（n）t1;pi;（n）t1）;n = 1; ：：： Ng。第一个操作是取样（有更换）N次集fs（n）t1g，以概率选择一个给定的元素pi;（n）t1。一些元素可以选择几个时间，而其他人根本不可以选择。从新组中选择的每个元素现在都受到影响

到对应于采样的预测步骤从过程密度p（Xt jXt1= s（一世）t1）（其中Xt是描述对象的参数向量州; 其配置和速度在时间t），所以相同的基础样本的预测一般不一样可以使用任何动力学模型在算法提供的过程密度可以被采样。最后应用观察步骤，通过评估观察密度计算权重p（Zt jXt）以获得样本集表示f（s（n）t; pi;（n）t）g的时间t的状态密度。

3、混合状态模型

事实上，过程密度p（Xt jXt1）

能够

有一些一般的形式可以被利用来允许冷凝算法支持，并自动切换，多运动模式。扩展状态定义为X =（x; y）; x 2 RNM; y 2 f1; ：：： NS g其中y是标记电流的离散变量模型，x是描述参数空间中的向量对象配置和速度。的过程密度可以如下分解：p（Xt jXt1）= p（xt jyt; Xt1）P（yt jXt1）P（ytjXt1）：P（yt = jjxt1;yt1= i）= Tij（xt1）其中Tij是状态转移概率。的给出了每个过渡的连续运动模型通过子处理密度pij（xt jxt1）p（xtjyt; Xt1）：p（xtjxt1;yt1= i; yt = j）= pij（xt jxt1）：为了在冷凝中实现一个模型框架指定一个抽样是很有用的算法的过程密度，以及算法对于混合状态的冷凝如图2所示。当使用此表单的模型进行跟踪时，可以预期会自动发生离散转换适当时候每个离散的状态转换具有非零概率的样本提供给状态分布，并保持几个这样的峰值而议案则不明确。一旦一个模型预测比这更准确其他人，那个模式将占主导地位。

4、跟踪实现

我们遵循标准方法来模拟两种形状和连续运动[1]。对象轮廓表示通过二次B样条和B样条控制点被限制在一个线性子空间中使用主成分分析构建样本数量。我们假设Tij（xt）？Tij并用手指定这些概率。连续运动被建模为二阶SDE参数从示例训练中学习使用最大似然估计的序列[1]。写作xt =？xtxt1？基于SDE的子进程所需的抽样方案密度由xt = Axt1 ？B！t0？; ！t 2 N（0; 1）NX其中A和B是动力学的学习参数模型和！t是i.i.d.的向量。随机变量。当学习几个子过程密度时各种型号，训练数据分段手区分模型。未来的研究将会尝试确定执行的自动方法训练数据和学习的细分T。在每个时间步长，必须显示一些输出

以表示估计的跟踪位置。而计算估计是可行的整个样本集的加权平均值，如[7]所示预期不同的离散状态将对应到配置空间中的不同集群，所以采用两步法。首先找到离散状态的MAP估计y ^ t = arg maxjP（yt = jjZ1：：：Zt）= arg maxjXn2？j？（n）t; 哪里？j = fn j s（n）t =（x（n）t; j）g：

然后对形状空间参数向量的估计从该离散的加权平均值中找出样品集：x ^ t =Pn2？^（n）t x（n）tPn2？^（n）t？^ = fn j s（n）t =（x（n）t; y ^ t）g这是后来显示的这个平均估计值gures。样品集通过确定进行初始化形状空间向量x0对应于序列中对象的初始位置和设置X（n）0 =？x0x0？; y（n）0 = 0; ？（n）0 =1N; 对于所有n：自动初始化当然是非常有意义的，是目前研究的重点。观察选择密度p（ZjX）以适合应用在以下部分描述。

5、跟踪一个弹跳球

构建了一个模型来跟踪一个落下的球垂直放置并在桌面上弹跳。这个情况需要第二状态对应的两个离散状态到一个反弹事件。“这是一种特殊的形式连续运动模型衰减回到默认值恒定加速度模型在一个时间步长之后，给出转换矩阵（手动设置）T =？0：9 0：11：0 0：0？其中恒定加速度模型用于转换1！ 1和2！ 1和反弹模型转换1！模型，如图3所示，展示框架的灵活性比较采用基于SDE的方法。一个形状空间x =（x1; h; x3;：：; x6）T用于h是球的高度。使用小幅度的随机游走模型x1和形状参数x3：：：x6。的模型参数为：恒定加速度由于重力a = 4:17像素/ s2，标准偏差的垂直位置噪声用于恒定加速度模型？h，有利于恢复原状球，e = 0:67，垂直的标准偏差反弹模型的位置和速度噪声Delta;B= 2像素，Delta;V= 10像素/秒。的以下是本例中使用的观察密度p（Zt jXt）已建立的做法[7]。常规长度在Bspline周围的M个特定点sm沿着这些检测曲线r（s）和边缘法线然后p（ZjX）/ exp（XMm = 112rM （z1（sm）r（sm）;））; 其中r = 0:01是方差常数，z1（s）是与r（s）和f（？;）=min（？2;2）来考虑搜索量表。跟踪空白背景时，混合状态模式按照预期的弹跳球，和具有相同过程的单一状态模型第一次反弹时噪音不合格。但是，什么时候单态模型的过程噪声增加足够了，它也跟踪了弹跳。真的实用的更准确的混合状态运动模型当背景杂波被添加时被证明。现在跟踪问题变得更加困难了，而且精确调整的预测对于防止分心是至关重要的被杂乱无章记录了序列，显示球在高度凌乱的前面弹起来背景（图4）。厚实的白色轮廓显示估计球位置，而细黑色轮廓是一组N = 1500的高分样本。用？h = 3像素跟踪混合状态模型成功（左，虚线轮廓显示样本已经进行了反弹过渡）。虽然估计在这个框架中略有偏差，足够了样品存在于球的附近正确跟踪继续。单态模型在h = 3像素跟踪它的初始下降的球，但在第一次反弹跟踪的时刻失败（中）。增加？h造成单一状态模型几乎立即被混乱分心（对）。

6、三状态绘图模型

接下来，构建跟踪器以跟随大纲一只手用笔画。三个不同|一般的绘图状态，a静止状态和“潦草”状态相对应到快速的来回运动时使用一个可能用于交互式的区域绘图包来表示aood是ll需要。建立观察密度手指跟踪器利用已知的图像用黑色标记笔的手绘的属性一个白页。手色像素是聚类的大约中间灰色，页面上的像素形成两个集群，一个围绕着白色，一个围绕着黑色。一个分发代表这个信息包括用于前景像素的单个高斯N（？f;？f）用于背景的混合物alpha;N1（alpha;b1;beta;b1） Delta;N2（Delta;b2;Delta;b2）。在所有使用的序列中，右边缘的手在轻微的阴影，所以一套coef-客户被用于左手边缘和另一个为了正确系统手动设置为然后观察密度计算如下：其中zl（sm）是距离处的灰度强度l像素沿着曲线的法线到splineparametersm（负值表示内部对象），gf和gb是高斯混合物ym是设定的惩罚常数如果在正常方向检测到边缘，则为1在位置sm和0：3否则。这个罚款常常喜欢有可检测的配方边缘周围的轮廓，但承认的可能性那个杂乱可能在本地具有相同的强度手，抑制边缘检测。

六个训练序列大致相似摄像机角度和照明条件，显示动作敏捷性越来越高混乱，被用来构建模型。部分每个训练序列都是手工标记的作为一般动议或潦草的动议，并使用训练SDE模型。建立了PCA形状空间为第一选择15意见和绘图的手围绕它们交互地创建一个初始的形状空间，然后使用具有该形状空间的跟踪器没有表示的手的视角在样例视图中。接下来，其中65个不对齐视图已手动更正并合并最初使用PCA创建15个视图以形成新的内容12维形状空间。转移概率使用的矩阵是哪个是一个典型的绘画的组成。大部分时间用于执行默认动议y = 1，但偶尔暂停y = 2持续时间，较不频繁地更长的时期涂鸦y = 3。另外，涂鸦的动作经常以暂停开始或结束

由于涂鸦运动是一个振荡器小空间范围，标准SDE的变体使用的模型允许振荡的平均值改变[11]。每个涂鸦动作被考虑有一个固定的意思，但不同的涂鸦有不同的手段。这是通过扩充编码的涂抹状态样本，额外的向量表示平均配置Xscribble =（x; 3; x？）。的平均矢量x的平移分量被初始化等于当前的位置涂鸦开始（转换1！3或2！3），x？是的继承于以前的样本那个涂鸦（过渡3！3）。

为了测试跟踪器，记录了一个新的序列，这不是用于提供任何培训数据。这个是一个1250字母（25秒）的序列，显示了一幅图一个房子（第5号）。由于图像速度高（高达25像素/字），结合高维度的形状空间，N = 15000个样本每个时间步长都需要强大的跟踪在SGI O2 R5000上以约0.33 Hz运行180MHz工作站。跟踪是准确的，样品框架如图所示。的通过模型切换进行运动分类（gure 6）也是准确的。起点和终点虽然涂鸦手势相当可靠，在某些开关中存在微小的滞后因为这个动议至今没有明确的含义至少有四分之一的振荡期已经过去了。由于根据MAP报告离散状态单个时间段的估计，有关的信息离散状态的时间一致性被抛弃。可以实现更准确的模型分割通过对数据执行窗口平滑。

设计视觉跟踪器来驱动复杂的用户界面应用是一个非常具有挑战性的问题，而且还有很大的障碍要克服。首先，加速近一百倍时间是必要的计算观察密度在硬件和切换到多处理器机器可能会带来这一点。系统必须也可以确定笔是否触摸该文件可以使用立体声来实现，或者通过分析手上的阴影[13]。它不清楚模型切换范式有多好增加更多手势时的尺度，以及如何跟踪器可以适应多个用户。

7、结论

正如研究和表征的兴趣一样运动越来越多，过滤技术的进步新的机会来尝试更多灵活运动模式比以前可用。在本文中一般的运动表示类| 混合状态模型| 已被描述，和为实现这一模式而提出的一个框架跟踪器混合型模型已经相对收到在计算机视觉社区中很少注意到期以传统的方式将它们融入其中构架。结果表明混合状态模型可用于改进跟踪在复杂的动作存在的情况下，表现作为一个副作用，可以自动区分不同特征运动之间。

这项工作提出了几个研究领域。以前已经找到学习的运动模型[1]比手动默认更有效，但学习联合混合模式是一个公开研究问题。样本集大小N需要在实验中要相当大，运行10 {100时间比实时慢; 可能有可能减少通过提高观察密度，可能通过考虑地区和轮廓。的构建用户无关的跟踪器和自动初始化算法还有待解决我们承认的支持EPSRC。

参考文献

剩余内容已隐藏，支付完成后下载完整资料

资料编号：[28391]，资料为PDF文档或Word文档，PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容！立即支付

注册

找回密码