穿戴式设备的UI设计研究与应用外文翻译资料

2022-12-28 04:12

本科生毕业设计（论文）外文资料译文

（ 2021届）

论文题目	穿戴式设备的UI设计研究与应用

外文资料译文规范说明

一、译文文本要求

1．外文译文不少于3000汉字；

2．外文译文本文格式参照论文正文规范（标题、字体、字号、图表、原文信息等）；

3．外文原文资料信息列文末，对应于论文正文的参考文献部分，标题用“外文原文资料信息”，内容包括：

1）外文原文作者；

2）书名或论文题目；

3）外文原文来源：

□出版社或刊物名称、出版时间或刊号、译文部分所在页码

□网页地址

二、外文原文资料（电子文本或数字化后的图片）：

1．外文原文不少于10000印刷字符（图表等除外）；

2．外文原文若是纸质的请数字化（图片）后粘贴于译文后的原文资料处，但装订时请用纸质原文复印件附于译文后。

指导教师意见：

指导教师签名：年月日

一、外文资料译文：

OmniTouch：随处可穿戴的多点触控交互

关键词：按需界面，手指跟踪，随身计算，适当的曲面，对象分类

介绍

当今的移动计算机可无所不在地访问信息，创建和通信设施。不可否认，他们永远改变了我们的工作，娱乐和互动方式。但是，移动交互还远未解决。较小的屏幕和按钮会损害用户体验，否则会阻止我们充分发挥其潜力。

在本文中，我们探索并原型化了一种强大的移动交互替代方法，该方法使用穿戴式投影/传感系统来利用现实世界提供的巨大表面积。例如，仅一只手的表面积就超过了普通智能手机的表面积。桌子通常比平板电脑大一个数量级。如果我们可以按需使用这些临时表面，那么我们可以保留移动性的所有好处，同时扩展交互功能。但是，将日常表面变成交互式平台需要复杂的硬件和感应。此外，要真正实现移动性，系统必须适合放在口袋里或可穿戴。

在本文中，我们介绍了OmniTouch，这是一种新颖的可穿戴系统，可在其上进行图形化，交互式，多点触摸输入任意的日常表面。我们的肩扛式实现允许用户操纵投影到环境（例如墙壁，桌子），持有的物体（例如记事本，书籍）和自己的身体（例如手，膝）。一种关键贡献在于我们的深度驱动模板匹配和聚类方法进行多点触控手指跟踪。这样就可以进行即时互动，而无需校准，对环境或用户的培训或检测，创建一个始终可用的接口[8,24,28]。

相关工作

OmniTouch来自包括触摸在内的多个领域的交互技术，表面计算，自由空间手势，计算机视觉，可穿戴设备和无处不在的计算。在这里，我们专注于与这些领域相交的高度相关，有影响力的工作。

数十年来，使用交互式投影界面增强环境一直是研究的远景。多种方法都是可能的，包括在环境[20,32]中安装投影仪，使用手持式投影仪[3,22]以及让用户佩戴已安装的投影仪[11,17]。在任意投影对象上提供基于触摸的交互性具有挑战性，并且通常需要固定的非跟踪投影[8,17]，对环境中的对象进行仔细校准[20,32,34]或要使用感测元件检测的对象 [10,14,22]。少数这样的系统尝试真正地临时完成，而无需永久性地对其操作的表面进行检测[12,17,29,33,34]。

微型投影仪的出现使一类新的穿戴式，人体投影式交互式系统成为可能。SixthSense [18]和Interactive Dirt [17]均具有磨损的相机/投影仪组合。手指跟踪是通过佩戴指尖标记（例如，彩色或红外反射）。与我们的系统相比，由于两个系统无法区分点击手指和悬停手指，因此无法进行真正的触摸互动。部分原因是由于系统无法跟踪环境中的表面，这也使得无法更改投影的界面并在移动时跟随曲面。另外值得注意的是Skinput [8]，它使用生物声学技术来检测皮肤上的手指轻击事件。Skinput的主要局限性在于它缺乏对用户身体以外的任何表面的支持，无法检测触摸拖动动作以及对多点触摸的支持。尽管系统包括一个微型投影仪，但未执行表面跟踪，要求用户将其手臂放置在预定位置。

检测手指，手，触摸和手势已成为计算机视觉中的活跃研究主题[1,6,20,26]。由于缺乏对环境的控制以及仪器使用者普遍无法使用仪器，因此在可穿戴的即席环境中进行基于计算机视觉的跟踪工作具有挑战性。（例如，标记[17,18]，手套[27]）。

与我们的技术方法密切相关的是使用深度摄像头跟踪而不增加用户或环境的系统。LightSpace [32]使用一系列深度摄像头来跟踪用户和增强室中的手臂水平操作。在较小的规模上，单个摄像机可以通过使用根据静态场景的直方图确定的每个像素深度阈值来提供常规的触摸事件[34]。两种方法都可以在各种表面上工作，但是在操作之前需要仔细校准。

硬件

如图1和图2所示，我们的概念验证OmniTouch系统包括三个主要组件。首先是定制的短距离PrimeSense [21]深度相机，它以30 FPS的速度提供320x240的深度图。该传感器可以对20cm的物体成像，深度（Z）轴的相对误差约为5mm。在较远的距离处，深度精度会降低，噪音会增加。但是，对于我们的应用程序（主要考虑在用户面前的1m“气泡”内进行交互）而言，噪声和精度损失最小。我们最初使用Microsoft Kinect构建了原型，并取得了良好的效果。但是，至少50cm的最小感应距离需要将笨拙的位置高举到头部上方以抓住手。

第二个关键组件是Microvision ShowWX 激光微型投影仪[16]。该投影仪具有以下重要特性：无论深度如何（即距投影仪的距离），图形元素的广角，无焦点投影。最后，将深度相机和投影仪拴在台式计算机上以进行原型制作。

深度相机和投影仪都牢固地安装在贴合的金属框架上，该金属框架戴在肩膀上并用胸带固定。我们选择肩部是因为它可以很好地支撑手臂和被握住的物体（包括感应和投射），以及邻近的固定表面（例如墙壁和桌子）。但是，我们的方法适用于其他位置（例如，上臂[8]和胸部[18]）。此外，肩部往往非常稳定，从而允许投影的界面具有最小的摇摆和抖动（请参见视频图）。

对于感知和处理，第一人称身体稳定的角度是理想的，因为可以对手指和手的位置和方向做出许多简化的假设。例如，用户的手臂实际上不可能从顶部进入图像。系统的视野也会随佩戴者自动平移。此外，摄像机和投影的遮挡问题也得以最小化，因为它们的视场与佩戴者的视线大致重合。

多指手指跟踪

我们提出了一种用于临时手指跟踪的独特方法，该方法可以在任意表面（平坦和不规则）上进行多点触摸输入，而无需校准或培训。我们可以确定手指的X，Y和Z位置，以及它们是否接触或悬停在表面上。因此，OmniTouch产生类似于鼠标或触摸屏的输入事件，从而支持多种应用。

手指分割

识别手指输入是一个多步骤过程。首先，我们拍摄一个场景的深度图（图3A），并使用滑动的5x5像素窗口计算X和Y轴的深度导数（图3B；分别使用蓝色和红色通道可视化的X和Y导数）。然后，我们遍历此派生图像，寻找圆柱状对象的垂直切片。这类似于模板匹配，但具有一些动态参数。简而言之，要使一片像素成为候选像素，它必须显示陡峭的正导数，然后是相对平滑的区域，最后显示陡峭的负导数（图4）。此顺序至关重要。否则，凹形特征（例如，手指之间的间隙）也将被识别。同样重要的是，我们使用的深度相机将感测误差，超出范围的表面和遮挡边界表示为深度图像中的孔。因此，它们在导数中显示为凹面，而我们的过程将忽略它们。

要初步隔离手指，候选切片的高度必须在5到25mm之间，我们发现该范围可以覆盖典型的手指直径，包括临界指尖。像素距离可以转换为现实世界的距离（mm），因为深度值也是已知的。该手指切片识别过程的结果在图3C中示出。

使用深度图的导数有几个好处，使其成为我们感测方法的关键组成部分。最重要的是，这种方法可以抑制绝对深度信息，从而可以将场景视为常规的2D图像，这可以使用标准的计算机视觉技术轻松处理。此外，无论手指在其上操作的表面如何，导数轮廓都基本不变，从而大大简化了识别过程。

一旦确定了所有候选手指切片，我们便将附近的切片贪婪地分组为连续的路径。比可能的手指短或长的路径将被丢弃。即使在嘈杂的场景中，此过程也会产生很少的误报。在图3D中看到的输出类似于手指的骨骼模型。像其他计算机视觉技术一样，不会检测到被遮挡的手指。另外，有用的是，不会跟踪“塞入”的手指。但是，我们的技术对接近角度敏感（既不能太陡也不能太浅），并且通常需要伸出手指才能可靠识别。

有许多方法可以消除路径的哪一端是指尖的歧义。在我们的概念验证系统中，我们假设使用了惯用右手的用户，因此，在几乎所有情况下，路径中最左边的点都是指尖。对于我们的左肩安装配置，这在实践中效果很好。为了消除感测噪声和像素边界闪烁，指尖位置通过卡尔曼滤波器进行了平滑处理。

手指点击检测

如上所述，手指分割过程产生手指的空间位置（X，Y和Z）。辅助过程用于确定这些手指（特别是指尖）是否与表面接触（即“喀哒”声）。我们首先计算手指路径的中点，该中点大致等于小指关节的位置。从这一点开始，我们向指尖（即除右侧以外的所有方向）填充水。使用深度为13mm的公差在深度图上执行此操作，以确定是否可以填充相邻像素。当手指悬停在表面上方或自由空间中时，洪水填充会扩大以覆盖整个手指（图5，左）。但是，当手指接触表面时，填充操作会泛洪到连接对象中（图5，右）。如果超过了像素计数阈值（例如2000像素），则填充将中断，并确定手指被点击。请注意，如果表面很小或位于相机的视线之外，则可能无法通过阈值，并且错过了点击。当手指在整个表面（包括不规则的表面）上拖动时，此过程可以可靠地检测到手指的点击，并保持点击状态。实际上，当手指的悬停距离降到表面上方1厘米或更短时，它将被视为“单击”。可靠地将2厘米以上视为悬停。悬停距离在1到2厘米之间是模棱两可的，并且在很大程度上取决于本地噪音；我们应用磁滞来减少点击状态之间的闪烁。有趣的是，用户并没有注意到歧义，通常会在到达所需目标的途中“点击”该区域。

按需投影接口

仅通过手指跟踪，就可以支持缺少图形反馈的界面或“不可见界面”[7]。例如，可以在记事本上绘制简单的图形或执行类似涂鸦的文本输入。

注入交互式图形反馈大大扩展了应用空间。但是，现实世界中物体固有的动态特性使这种情况变得复杂。界面不仅必须跟踪在其上渲染的对象，而且还必须以考虑其宿主表面在3D空间中的位置和方向的方式进行投影（图6）。没有这些考虑，接口将以不适当的位置，方向和大小进行渲染，并且会受到透视视觉失真的影响。

表面分割和跟踪

除了手指跟踪之外，深度视频流还用于跟踪适合投影在用户面前的表面。首先，通过在深度图上执行3D连接的组件操作来分割不同的表面（图7，右）。小于手尺寸的表面将被丢弃。

对于每个表面，我们通过获取组件像素在空间中的协方差并计算第一矩和第二矩来计算绕Z轴的方向（与摄影机正交）。有关X轴和Y轴的方向是使用表面法线的分布估算的，该法线在主要方向上往往呈高斯分布。

我们还生成了一个中心X / Y / Z“锁定点”，可以将接口连接到该中心（图7）。无论在3D空间中平移还是旋转，该点都必须稳定。一种方法是获取对象像素的质心。然而，由于当用户与他们的手指交互时表面的一部分可能被遮挡，因此这是不可靠的。取而代之的是，我们从曲面的长轴上沿其长轴向内移动10cm，并以短轴的中点为中心（图8，红色）。尽管可以使用更复杂的技术，但此解决方案效果很好。最后，卡尔曼滤波器用于平滑所有六个自由度。

投影机/相机校准

为了能够进行创作并与投影界面进行交互，必须在统一的3D空间中校准投影仪和照相机。由于我们的深度相机报告了真实世界的深度值（mm），因此我们选择该深度作为目标坐标系，并使用相机值校准投影机。

该过程需要投影仪的固有参数，例如视野和投影中心。要查找外部投影机参数，我们需要四个非共面校准点。这四个点必须由深度相机识别并位于投影仪图像中。一旦确定了投影图像中的2D点与它们在空间中的实际3D位置（深度相机值）之间的对应关系，我们就可以使用POSIT算

剩余内容已隐藏，支付完成后下载完整资料

英语原文共 10 页，剩余内容已隐藏，支付完成后下载完整资料

资料编号：[269736]，资料为PDF文档或Word文档，PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容！立即支付

注册

找回密码