基于模板匹配的音频相似度分析方法研究与实现外文翻译资料

2022-09-26 16:41:37

英语原文共 7 页，剩余内容已隐藏，支付完成后下载完整资料

1摘要

本文提出了一种新的方法，用以可视化音乐和音频的时间结构。音频记录的任何两个时刻之间声音相似性被计算并用二维表示出来。类似或重复的元素在视觉上是不同的，允许结构和节奏特征识别。可视化例子举出了交响乐，爵士乐和流行音乐。包括基于内容的分析的应用，以及节奏结构和提取。

1关键词：音乐可视化，音频分析，音频相似性度量
介绍

窗体顶端

把音乐做成可见性的引起人们非常大的兴趣。在艺术上人们尝试通过声音来形成图像，其中迪士尼电影幻想曲可能是最典型的例子了。另一种方法是使用诸如示波器和声音摄谱仪定量地呈现的时间和或音频信号的频率内容。

窗体顶端

这些尝试主要用于科学或定量分析（尽管它应该指出，像艺术家玛丽埃伦在工作中使用的量化方法，例如面向在艺术上的结尾的阴极射线示波器）。其他的可视化是从音符或基于分数样的音乐表示衍生出来，通常来自MIDI。

窗体顶端

音乐通常是自我相似的。除去一些前卫的作品，结构和重复的几乎是所有的音乐的一般特征。也就是说，结尾通常类似于介绍，第二合唱听起来像第一合唱，并且一个主题或多或少和变奏是类似的。在较短的时间尺度上，连续的东西往往是重复的，尤其是流行音乐。本文介绍的是一种通过时间上声音的相似性和不相似性可视化音乐结构，而不是通过绝对的声学特性或音符的新方法。自我相似性在时间的二维表示中可视。本文提出显示音频文件的声学自相似性为图1的方法。

窗体顶端

这些图像以图形方式描绘在音频文件中的两个时间区域之间的相似性。音频文件被表示为正方形。方形的每一侧是正比于一段的长度。时间从左至右以及从底部到顶部运行。在图中，两个轴都标有时间，单位为秒。因此，正方形的左下角对应于片的开始，而右上角对应于结尾。在正方形里，一个点（I，J）的亮度正比于在i和j时声音的相似性。相同的区域是亮的，而不同的区域是暗的。因此总是有一条明亮的对角线从底部左侧运行到顶部右侧，因为音频总是在特定的时间最相似它本身。（从技术上讲，该相关性是总是在0滞后时最大）在这种可视化中，自我相似性的区域出现明亮区域偏离对角线，如图1。相对新颖区域显示为暗正方形。重复相似性，例如重复的音符或主题，显示为棋盘图案。长时间重复的主题是可见的因为对角线通过两个重复之间的时间差平行于主对角线并从主对角线中分离。

窗体顶端

3.相似性分析

为了理解图1中的可视化效果，相似性分析有助于了解它是怎样构建的。像素的底部行（或左侧列;图像是对称的）这是通过第一瞬间和其余瞬间的相似程度着色的（对于这里的可视化，一个“瞬间”讲述的是1/10秒）因此，底行的中间点按第一瞬间和瞬间的一半的相似性比。正如我们考虑从底部的列向上面的列逐渐提高，我们也考虑到将瞬间逐步进入段中，并把他们和音乐从开始到结束比较。

3.1音频参数

为了计算两个音频“瞬间”之间的相似性，它们首先将参数梅尔频率倒谱系数（MFCCs）加上一个能量项。图2示出了参数化的音频波形的步骤。

窗体顶端

首先，在重叠的步骤中，音频是Hamming窗。每个窗口是25毫秒宽并且重叠了，所以有100页窗在第二个音频里。窗口宽度和重叠可以进行微调，以优化的可视化，但上述值可以提供大多数音频良好的结果，并在实施例中被使用。对于每个窗口，所述功率谱的对数利用离散型傅立叶变换计算（DFT）日志频谱系数由频率刻度的非线性地图感知加权。这个操作中称为梅尔测量，强调中间频带与知觉重要性成比例。

3.2

这里使用的相似性度量基于向量自相关。给出了两个 MFCC 特征向量和来自音频 windows1 i 和 j，简单的向量相似性的度量是标量 (dot) 产品的载体，这将是一种大如果向量是大和同样面向。因为 windows，因此特征向量，发生率比典型的音乐活动，更快更好的相似性度量，S 可以制得的矢量相关性计算在窗口 w。因此这也捕捉到向量的时间依赖性。导致高相似性得分，作为特征向量 1 在向量来自离散的 windows，我们使用离散时间索引整个这次讨论。窗口必须不只是类似，但其序列以及必须类似。考虑一个一维的例子，标量的序列 (1、 2、 3、 4、 5) 有多高相似性得分与本身比与序列 (5，4，3，2，1)。这个方程作为相似性度量用于本文图片。

3.3形象化方法

若要可视化的音频文件，选择了一个带有 w 的窗口，和 S(i,j) 的相似性度量计算所有窗口组合，因此时间索引 i 和 j。然后让每个构造图像位置像素，j 给定一个灰度值成正比的相似性度量，通过缩放相似度值这样的最大值给出了最大亮度。由于快速的特征向量，它很有可能长时间音频文件将导致好高骛远大图像 (一项决议，每 6000 x 6000 像素图像中的第二个结果 100 向量的一分钟文件) 中。要减小图像大小，相似性可以平均超过短的间隔，或相似性计算只为某些时间指标。后一种方法是采取在这里。因为 S 已经计算在一个窗口大小 w 上方，看起来只在一个整数的索引 w 的倍数减小图像大小的因素。这些可视化效果取决于长度的音频，部分使用 w 范围内的 5 到 10 的例子让我们清楚地看到音频文件的结构。高的音频相似，如沉默或长期持续地注意到，区域显示为明亮的方格子的对角线上。重复的数字，如主题、短语或合唱，为明亮的非对角矩形将可见。如果音乐有高度的重复，这将作为斜条纹或棋盘，从主对角线抵消重复时间可见。下面是一些例子;时间尺度是秒。决议和空间的原因大部分图片是从较长的作品小摘录。

3.4独奏鼓小样

图 1 是采样'鼓独奏'取自音频测试 CD。不同的鼓都是独特的视觉特征。独奏入手，小军鼓卷，其次是切分音交替踢和网罗命中和钹口音。图 3 放大到第十秒。更高的时间分辨率，在开始卷个别网罗击中是可见的。交替的文书是在该图中特别是可见的。例如，2 times; 2'棋盘'之间的第二和第三秒的录音 vi vj 骶 ()，六 vj equiv; bull; Sw(i, j) 1 w---六 k vj k () bull; k = 0 w — — 1 equiv; sum; 是小军鼓命中之后由踢鼓命中。这个序列扭转 (踢，然后圈套) 秒 3 和 4 之间。为了澄清可视化、条纹标记'圈套'，'钹，'和'踢'就已在图上。这些行表明表明文书音频的时间相似性，因为他们的自相关与参考 windows 包含各自的文书。例如，条纹标记'网罗'开始得很明亮，因为用陷阱捕捉音频启动卷。不同的乐器可以明确区分。当然，它可以帮助他们那些光谱很不同;它是通常更难区分类似范围文书和音色，例如长笛和单簧管。图 4 显示自相关条纹作为一个更常规的阴谋。看图 4，很显然简单最多会做很好的工作，在这两个分割的音频和分类的不同的鼓的打击，因为可以从图中，将自动得到仪器和计时信息，此信息可用于生成一般是十分棘手的问题，无法辨认音高仪器的音乐源 MIDI 表示。这情节突出特点并不是那么明显，在图 3 中;例如踢鼓切分在 7 秒清晰可见。注意特别是在 4 到 7 秒镲 (钹) 口音都是可见的方式。

更多的例子

本节提供了附加的可视化效果跨各种音乐流派。本文的电子版本包括播放源音频以及全彩色版本的附加说明的可视化效果。

4.1

巴赫前奏

图 6 显示了巴赫的前奏号 1 的第一秒，C 大调，从平均律键盘曲集，BVW 846。这可爱的 1924年钢琴演奏是由 Ferruccio 布索尼。这个形象是模糊由于 1924年录制的音频质量极差。(事实上，常规音频分析技术将做出小进展应有到可怜的带宽和极高噪音水平的这个音频)。在一开始条纹是单击，弹出由于表面噪声从 78 RPM 录音。可视化使得两件作品的结构和性能的详细信息可见。后者的例子，请注意对于缓慢的第一个音符和渐进渐快 (加速) 当棋盘一起走近。音乐的结构是明确从重复的图案;重复时间的倍数可以见于非对角条纹平行于主对角线。图 6 所示的得分第一的几小节: 这块的重复性质应明确甚至对那些不熟悉音乐记谱法。

4.2

布鲁贝克的采取 5

图 7 显示戴夫布鲁贝克组成以 5 的开头，因为由戴夫布鲁贝克四方。同名的 5/4 时间签名是可见作为 3 2 细分，特别是在左下角的。尤其是明亮的区域是高音符从中音萨克斯管。

5.莫扎特的喇叭协奏曲

图 8 显示了从莫扎特的喇叭协奏曲号 4 的回旋曲运动开始。按了喇叭主题和由乐团合奏重述语句中是可见的左下角。虽然这两个语句是旋律相同的他们出现不同因不同的音色。持续的高角注意导致明亮四方附近的 20 秒标记。

5.1

天卸料小车由披头士乐队。

图 9 显示了整首歌曲天卸料小车由披头士乐队。已注释图像显示的典型流行歌曲结构，是: 介绍诗歌、合唱、第二节、合唱、桥、第三诗和合唱，coda 和'outro'第一节人声开始图 6。可视化的巴赫的前奏号 1 图 7。采取由戴夫布鲁贝克四方图 8 5。从莫扎特的喇叭协奏曲第 4 在 18 秒左右; 而作的回旋曲。4 声乐短语 ('得到了很好的理由 / 采取') 可以看到回荡在第二节 ('她是个大难题......') 约 20 秒后。简单的方法。合唱 ('她是天卸料小车') 开始在 30 秒左右;在 40 秒内突出的特点是持续'所以'('我花了这么长时间和找出')，通过第二节在 75 秒概括半途而废。请注意，'如此'的第三个合唱 (130 秒) 不是类似于前面的合唱;它是大约一个八度加小三度高于前两个的假嗓唱。上半年的这座桥是器乐，而另一个包含背景人声 ('啊')，最后半可以被看作是类似于第一和第二'这样'从合唱。重复 11 注吉他/低音 riff 是特别清楚地介绍和在结尾，其注意的注意要点，也是可见的经文和 outro，淡出。栏的栏和逐节周期性很明显流行整个图像的对角线。

6.可视化技术

此技术的应用应援助音乐学分析。有的可视表示形式，例如，相同的交响运动两种不同性能可加以比较的节奏和重点在两个认识。可以彩色灰度可视化效果要添加另一个变量的维度;例如，使用颜色来表示相对体积，因此，例如，段最强音的段落彩色红虽然软通道下来到蓝色最弱音谱各不相同。动力学和节奏的差异便会清晰可见。

6.1 检索按相似性

这些可视化显示如何声学相似的段落可以位于音频录音。整个录音以及内单个录制，也可以发现相似。作为直接的应用，这将是有用的只要知道音乐或音频需要位于一个较长的文件。例如，它将一个简单的问题，在新闻联播中或如果音频是以前可用，广告会出现在电视广播中的时代找到主题音乐的位置。在这种情况下，将计算所有帧的源商业与电视广播，导致在一个矩形的相似性矩阵之间的相似性度量。商业发作次数可以由阈值确定相似度矩阵在一些合适的值。大多数音乐的结构是不足以描述工作。通过实例证明，人类专家可以通过视觉结构单独识别音乐和声音。维克托李雪麻省理工学院的教授在'阅读'声谱仪课程。在双盲测试中，Arthur G。Lintgen 的费城是能够通过识别在 LP 槽 [8] 中可见的柔软和响亮段落区分未标记的古典唱片。这些例子表明，这里提出的可视化方法可能是有用的相似性的音乐检索。不仅音响上类似音频可设，结构类似音频应该容易找到，通过比较相似的可视化效果。例如，相同的交响移动不同性能应该有类似的结构可视化，不管如何，或当他们被执行或记录，或事实上所用的仪器。

6.2 结构/节奏提取

这最后一点强调特别有前途的相似性度量中的应用。因为 selfsimilarity 被决定的而不是任何特定的音频特性，可以从自动获得重要信息的相似性度量。这可能特别有用;图 4 所述，它将能够从音频源，即使在没有基音信息生成一个 MIDI 表示。非常有吸引力的可能性是节奏的自动确定。由于特定的性能的音频和 MIDI 文件表示形式的同一块，将可能扭曲 knowntempo MIDI 格式副本以匹配的原始性能的相似度矩阵。翘曲函数就作为先手地图，允许将 MIDI 文件回放与节奏，原始的表现。这可能是特别有用的档案的表演，如 4.1 节巴赫的片段。

7.确认

由于波丘尼的 S.S.Ghosh 录制的巴赫前奏曲 (建议由 Steven Smoliar)。系统科学 (现在肯特岭发展实验室) 在新加坡，进行这项工作是研究所的工作人员表示感谢。这项工作是由国际学者交流委员会的 William J.富布赖特奖学金资助的。

8.参考文献

[1] 波特乔治 A.科普，哈丽特 C.绿色，可见言语，D.Van Nostrand 有限公司，NY，拉尔夫 K.1947

[2] 柯尼希，Walter K.，香港邓恩、 L.Y.莱西，'声光谱仪中的，'在雅哈兹，卷 18，p.19-49。[3] 莫里茨，William，'玛丽埃伦弼: 看到声音，'在动漫的世界，卷 1 号 1996 年 5

剩余内容已隐藏，支付完成后下载完整资料

资料编号：[150618]，资料为PDF文档或Word文档，PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容！立即支付

注册

找回密码