Flickr如何帮助我们感知世界：在网络共享媒体集合下的背景和内容外文翻译资料

2022-11-04 16:35:41

英语原文共 10 页，剩余内容已隐藏，支付完成后下载完整资料

Flickr如何帮助我们感知世界：

在网络共享媒体集合下的背景和内容

Lyndon Kennedylowast;, Mor Naaman, Shane Ahern, Rahul Nair, Tye Rattenburydagger;

Yahoo! Research Berkeley

Berkeley, CA, USA

{lyndonk,mor,sahern,rnair,tye}@yahoo-inc.com

摘要

像Flickr和YouTube这样的媒体共享网站的出现大大增加了在网络上可用的网络共享多媒体资源。这些资源集合在先前有着无法想象的深度和广度，为多媒体研究迎来了新的机会和挑战。我们如何从这些新集合中分析，理解并且提取模式？我们怎样可以使用这些非结构化的，无限制的网络共享的媒体（和注释）来获取“知识”？

作为一个测试案例，我们研究Flickr - 一个流行的照片共享网站。 Flickr支持照片，时间和位置元数据，以及轻量级注释模型。我们使用两种不同的方法提取来自该数据集的信息。首先，我们采用位置驱动方法来生成以“代表性标签”的形式聚合世界任意地区的知识。其次，我们基于每个标签的元数据模式，对于Flickr标签，使用标签驱动自动提取地点和事件语义。

利用从标签和元数据中提取的图案，可以更精确地使用视觉算法。特别的，我们展示了一个基于位置标签的视觉检索地理相关地标图像的方法和Flickr数据集的特征。结果表明网络共享媒体和注释可以增强和改善我们获取多媒体资源的能力及我们对世界的了解。

分类和主题描述：H.4 [信息系统应用]
一般条款：算法，测量
关键词：地理参考照片，照片集，社交媒体

介绍
数字摄影设备的普及，以及在线共享公共照片的日益增长已经导致大量的公共消费照片可在网络中可见。数十亿张图片被共享在例如在Flickr这样的网站上，记录我们文化和环境的成长。搜索，查看，归档和交互这类集合具有广泛的社会和现实意义。然而，由于它们的大小，这些照片集合越来越难被识别，搜索和导航，尤其自动化系统在很大程度上不能识别照片的语义内容。从而，这些照片集合的前景和意义在很大程度上依赖于元数据和信息由用户手动分配给照片。

可以在文本中找到关于图像内容的线索（例如标签或“标签”），其与用户的图像相关联。研究人员以前分析了多媒体集合中的用户提供的标签，以提取趋势可视化数据[6]，以及对未注释图像的建议注释[14，20]。但是，关联的标签为多媒体系统带来了一系列挑战，如同Flickr等照片共享网站一样，标签和其他形式的文本是自由输入的，而不是与本体或任何类型的分类相关联。因此，标签通常是无害的，错误的或含糊的。特别是由于涉及的复杂动机驱动器使用标签和文字说明[2]，标签没有必要描述图像的内容[11]。

与照片相关的位置信息对于理解照片内容方面是有价值的。在过去，图像是地理参考（或者，“地理标记”）：被拍摄的图像带有联描述地理位置的元数据。举个例子，在Flickr上现有可用的超过2千万张的带有位置元数据的照片。位置元数据将非常有用，它们主要来自位置相机电话和数码相机，最初来自用户输入[24]。显示位置元数据仅仅有利于浏览和组织这些照片集合。另外，位置有时可以表明图像的语义内容。

最终，系统将受益于应用程序计算机视觉技术，以提高我们对网络共享媒体集合中的照片的理解。在无约束条件下应用计算机视觉是一个困难的问题，它将是未来几年的研究课题[21]。但是，对于一些定义明确的任务下的非结构集合可以使用视觉模式识别方法。

本文的主要贡献是结合基于标签，基于位置和基于内容的分析来改进自动识别这些大型网络共享媒体集合的技术。首先分析与之关联的标签，使用位置驱动方法的照片可以帮助我们生成世界任意地区的“代表性标签”，所选标签通常对应于地标或地理功能内部的问题。二，我们聘用一个标签驱动的方法来自动提取地点和基于每个标签的元数据（位置和时间）模式。

使用从标签和位置提取的图案，可以更精确地使用视觉算法。尤其我们展示了基于位置标签的方法来检索地理相关地标的图像和Flickr数据集的特征。

特别注意的是，这个上下文注释内容分析拥有协助处理各种有关媒体集合的疑难杂症的潜力，包括：

bull;提高地标和地点查询的检索精度和广度。
bull;轻松注释照片，或表明标记为未注释由用户上传的地理参照照片。
bull;通过选择生成大型集合的摘要。

目前在Flickr上提供了超过20,000,000张地理参考照片。我们不依靠地名录，或现有的地标列表，本身的标签语义或任何其他手动分类。这个真实的数据集提供了巨大的机会，当然也伴随着由多媒体探索带来的新挑战和需求。

本文中使用的元数据模型在第3节中定义，我们描述的位置驱动分析在第5节中，我们将介绍如何通过元数据分发从Flickr标签中提取语义。第6节提供了将视觉算法纳入分析的细节;，简要评价出现在第7节。当然，我们从相关的工作开始。

相关工作
下面我们就元数据和多媒体融合，基于元数据的多媒体模型的相关工作进行报告，并且对计算机视觉方法进行地标识别。

在过去几年中“地标识别”这个主题已经被研究过了，但是仅适用于有限或合成数据集。特别强调，在[5,17,25,27]中已研究了上下文和内容的分析及其更多。例如，尝试以匹配基于视觉特征的地标照片，之后基于它们的位置来过滤一组图像，这项成果是我们工作的重要前提。但是，Tsai等人的数据集中的地标被研究人员预先定义为假定现有的地标数据库，这个假设是最好的限制，也许不切实际。奥黑尔[17]用了查询示例系统，其中包含示例查询照片的上下文（位置）除了内容，并相应地过滤了结果。这个方法当然不同于我们自动识别地标和位置的工作。 Davis等人[5]有一个类似的基于内容的方法揭露了地点之间的相似性和上下文数据，但没有检测或识别地标。

其他工作已经从照片的上下文和注释识别了建筑模型的位置。在[14]中，
Naaman等人提取基于位置的术语模式出现在斯坦福大学地理标记照片的标签中。作者表明建立位置模型中的每个术语，但是系统没有自动检测地面，标记，也没有包括计算机视觉技术。

在计算机视觉领域，在[11]中，作者调查了使用“基于搜索的模型”来检测照片中的地标。在该应用程序中，重点是使用基于文本的关键字搜索在网络图像集合上收集训练数据，给以学习要应用的模型消费者收藏。这项工作虽然与我们的工作相关，但依赖于预先定义的地标清单，我们可使用元数据自动发现地标。此外，这项工作的重点是预测跨领域学习所产生的问题，其中模型是从网络搜索结果的图像上进行建立，然后应用于消费者照片。

在[3]中，Berg和Forsyth提出了排名的方法，它来自一组具有相同标签的的“标志性”图像，我们的工作是从一组噪音标记的图像中检查最具代表性（或标志性）图像的排名，这可能是相同的位置。一个关键的区别是在[3]中，这些位置是手动选择的，并且假设场景有一个标志性视图，而不是我们在这项工作中展示了各种各样的代表性意见。

Snavely等人 [22]提出了一个可以在系统注册各种图像之间的点对点并且迭代地近似收集各种图像的相机角度。然而，这个系统是用于勘探和开发的，没有选择几个“代表”图像的机制总结位置。该系统在计算上也是昂贵的，目前对于运行来说是不切实际的广泛的地标，我们的系统可以作为输入Snavely等人的自动过滤器算法。

型号和要求
本节将使用的数据集的属性正式化贯穿本文。扩大研究课题定义和提出的解决方案。

我们的数据集由三个基本元素组成：照片，标签和用户。我们将照片集定义为P={p}，其中p是包含唯一照片ID的元组（theta;p，Delta;p，t p，u p），theta;p; 照片的拍摄位置，以纬度和经度表示 p; 照片的拍摄时间，t p; ID贡献照片的用户，u p。那个地点p一般指的是拍摄照片p的位置，但是有时标记拍摄对象的位置。时间，t p通常标记照片捕获时间，但是偶尔指照片上传到Flickr的时间。

所有照片都定义为：X=cup;pisin;PX p。我们可以用用于表示出现的标签集的等效符号照片的任何子集P Ssube;P设为X S。为了方便，我们定义与特定标签相关联的照片子集如：P x= {pisin;P | xisin;X p}。因此，照片与P的子集P S中的标签x表示为P S，x= {P Scap;P x}。

数据集中的第三个元素是用户，其中的一组我们用字母U表示= {u p}。同样地，我们使用美国= {u p | pisin;P S}和U x= {u p | pisin;P x}表示用户存在于一组照片P S和已经使用的用户标签x。

提取关于位置的知识

我们如何从图像和元数据的共享网络中提取有关地理区域的知识？使用第3节中描述的数据，我们希望自动识别每个给定的“代表性”的标签地理区域。重要的是要注意，这些代表性的标签通常不是在所考虑的区域内最常用的标签，相反，我们希望表面标签，唯一定义区域内的子区域有问题。例如，如果用户正在检查旧金山市的一部分，那么很少有通过向用户展示旧金山或区域标签，即使这些标签是最常见的，因为标签适用于所考虑的整个区域。相反，我们理想地展示如金门大桥，恶魔和渔人码头独特代表城市内的具体位置，地标和景点。

在我们确定标签的“代表性”之前，我们需要有对这个术语暗示的直觉。我们遵循引导我们设计的简单启发式算法。启发式试图捕捉人类注意和行为，如照片和标签中所示数据集。我们的启发式旨在寻找重要的位置和识别代表性标签，例如，在一个位置拍摄的照片数量是表明该地点的相对重要性; 一个在某个位置拍摄照片的个人摄影师的人数也有相似的指示。看着标签，用户很可能使用一组通用的标签来标识在a的照片中出现的物体/事件/位置和在集中区域发生比分散在大区域的（和不经常出现在该地区之外）更具代表性的标签。

我们首先假设系统考虑一个单一的给定地理区域G，以及拍摄的照片这个区域，P G。系统尝试提取区域G的代表性标签。这个计算是两个主要的步骤：在第一步中，我们使用照片的地理位置对照片P G进行聚类。在第二步，我们为每个群集中的标签分配“代表性”。

在第一步，系统在地理上聚集一组照片P G。我们使用k-Means聚类算法，基于照片的纬度和经度。地理距离用作距离度量，而k-Means算法的停止条件是每个集群的重心运动下降到50米以下。用于k-Means算法的种子点的数量是
基于| P G |，该区域内的照片数量题。基于实证观察结果，我们将种子值设置为从稀疏区域（低于100张照片）的三个到更密集区域（大于4000张照片）。

图1：旧金山的代表性标签

一旦确定了群集，应用系统得分在每个群集的标签中提取代表性标签，我们考虑每个集群C和一组标签X C与集群中的照片一起显示。我们根据下面定义的因素每个标签评分。

我们使用的一个因素是TF-IDF（术语频率，逆文档频率）。此度量指定更高得分到群集中频率较高的标签与正在考虑的区域的其余部分相比。接着，假设一个特定的标签独特集群，标签对于该集群的代表性越高。当然，我们不希望使用在群集中只出现几次的标签;，术语频率元素更喜欢流行标签。

计算TF-IDF与其轻微偏差经常用于信息检索。术语频率为集群C内的给定标签x是数量的计数的时间x在集群内使用：tf（C，x）= | P C，x |。对于标签x的逆文档频率，在我们的例子中，计算所有照片中标签x的总比例在考虑的区域G中：idf（x）= | P G | / | P G，x |。请注意，我们只考虑一组有限的照片（P G）IDF计算，而不是使用统计的整个数据集。这个对当前区域的限制，G，允许我们可以识别个别标签的本地趋势，无论如何他们的全局模式。

虽然标签重量是标签流行度的有价值的衡量标准，但它通常可能受到一名摄影师的影响，摄影师需要使用大量照片相同的标签为了防范这种情况，我们包括一个用户元素在我们的得分，也反映了启发式的a如果一些不同的摄影师，标签更有价值用它。特别地，我们考虑使用标签x：uf的C组中摄影师的百分比
= U C，x / U C。

集群C中标签x的最终分数由下式计算：（C，x）= tf·idf·uf。 tf-idf得分越高，用户分数，标签在群集中的区别越大。对于每个群集，我们只保留得分高的标签一定的门槛。需要门槛才能确保所选标签对于聚合表示是有意义和有价值的，我们对所有人使用绝对阈值计算集群以确保所选的标签代表群集。

旧金山的代表性标签的样本集是如图1所示。在[1,9]中，我们提供了更多细节算法，以及我们如何扩展计算以支持多个区域和缩放级别; 我们也评估了
算法结果。使用这个算法，我们创建了一个现场可视化3世界。

我们在第6节回到这个算法。我们注意到代表性标签通常对应于地标和地理特征。在第6节，我们使用这些计算用于为每个标签的代表图像设置基于视觉的系统的地标标签。

识别标签语义

我们如何提取有关特定标签或文本术语的知识，使用网络对图像的共享元数据？使用相同的数据，如第3节所述，我们希望识别具有事件或地点语义的标签。基于时间和空间分布每个标签在Flickr上的使用，我们尝试自动确定标签是否对应于“地

剩余内容已隐藏，支付完成后下载完整资料

资料编号：[140374]，资料为PDF文档或Word文档，PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容！立即支付

注册

找回密码