时间序列的相似性度量方法研究文献综述

2020-04-15 17:08:07

1．目的及意义

1.1课题研究的目的及意义

时间序列存在于各个领域，与单个的静态数据相比，时间序列可以表示某种现象的时间演变。随着互联网大数据的发展，对时间序列的数据挖掘方法也成为了研究的热点。时间序列的相似性度量是进行时间序列挖掘的重要步骤，是数据分类、聚类、规律发现、模式识别等工作的子进程。时间序列的相似性度量效果直接影响信息挖掘的效果。

现有的最常用相似性度量方法有欧式距离、动态时间弯曲等方法，但欧式距离只适合用于长度相同的序列，“点对点”的缺陷，动态时间弯曲解决了长度不同的时间序列的度量，对时间序列的偏移和振幅变化鲁棒性较强，但容易陷入一条序列上的一个点对应另一条序列的多个点的情况，造成病理性排列。这些方法只考虑了一部分特征，即时间序列的数字特征，因此为有效地对时间序列的相似性进行度量，提高数据挖掘的效率，还需要结合除数字特征以外的特征进行研究。

1.2国内外研究现状

最初的时间序列的相似性主要用欧式距离来度量，欧式距离采用时间刚性对齐，两个时间序列的时间轴必须对齐，对序列的偏移比较敏感。但随着数据信息的发展，时间序列更加多样化，主要体现在长度、振幅和序列的偏移等方面，于是1994年由Berndt ^[1]等人受语音识别技术启发应用到时间序列挖掘中的动态时间弯曲（DTW）逐渐进入人们的视野。这种“一对多”的匹配方式为时间序列数据挖掘提供了一种新的思路。

由于动态时间弯曲算法在时间序列数据挖掘方面的优异性，许多研究者将其应用在证券银行股票等金融场所^{[2, 3]}，自然生态领域^[4]，工业技术^{[5, 6]}等方面，但其时间复杂度过高，很容易产生维度灾难，限制了其在海量时间序列挖掘中的应用。且DTW倾向于通过扭曲来解释所有的波动，导致病理结果，如单个点对应另一条序列的大部分点。

研究人员早就注意到了DTW的缺点，提出了DTW的多种改进方法，如Sakoe ^[7]、Itakura^[8]、朱承志^[5]等通过缩小路径的搜索范围降低计算复杂度；李海林^[9]、Adwan^[10]等利用低维空间来反映原时间序列的特征，减少度量所需要消耗的时间代价；Kim ^[11]、Yi ^[12]等提出利用DTW的下界要求得下界函数提高计算效率。他们多是增加了额外的约束提高计算速度，并没有改进DTW的潜在机制，无法彻底解决病理对齐问题。

欧式距离和DTW只能体现时间序列的数字特征，忽略了形状特征，Keogh、Pazzani^[13]等人将体现形状特征轨迹的导数动态时间弯曲（DDTW）应用到时间序列的相似性度量中，Tomasz Górecki ^[14]将DTW和DDTW结合在一起，引入参数对二者进行加权组合，将其优势相结合，互相抵消其不足。Zhang^[15]等提出用形状上下文距离替代常规的DTW中的距离矩阵，同时延用原序列的数值特征度量序列之间的距离。这些研究探讨了时间序列的数字性和形态性。

除了在欧式距离和动态时间弯曲的改进，由于时间序列通常是非线性的，通常还可以通过使用具有相似性度量的线性空间来执行信号的非线性动态的建模。Colin O’Reilly ^[16]用相空间表示时间序列的非线性动力学，通过流形学习来探究时间序列之间的相似性，Huang ^[17]使用金融时间序列数据重组金融系统的相空间，用基于信息度量的流形学习算法检测出金融市场关键转型的早期预警范围。

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

注册

找回密码