生成合成时间序列以增强稀疏数据集外文翻译资料

2022-08-09 10:53:34

英语原文共 11 页，剩余内容已隐藏，支付完成后下载完整资料

2017 IEEE数据挖掘国际会议

生成合成时间序列以增强稀疏数据集

Germain Forestier^1,2，Francoisois Petitjean²，Hoang Anh Dau³，Geoffrey I.Webb²，Eamonn Keogh³ ¹法国上米歇尔大学阿尔萨斯分校germain.forestier@uha.fr

2澳大利亚墨尔本莫纳什大学IT学院，{francois.petitjean，geoff.webb} @ monash.edu

3美国加州大学河滨分校计算机科学与工程系{hdau001，eamonn} @ cs.ucr.edu

在机器学习中，数据扩充是创建合成示例以扩充用于学习模型的数据集的过程。数据扩充的一种动机是减少分类器的方差，从而减少错误。在本文中，我们提出了专门为时间序列分类设计的新数据增强技术，其中嵌入它们的空间是由动态时间规整

（DTW）引起的。我们方法的主要思想是平均一组时间序列，并将平均时间序列用作新的综合示例。所提出的方法依赖于DTW重心平均（DBA）的扩展，DBA是专门为DTW开发的平均技术。在本文中，我们扩展了DBA以能够计算DTW下时间序列的加权平均值。在这种情况下，某些时间序列可以比其他时间序列贡献更多，而不是每个时间序列对最终平均值的平均贡献。此扩展

允许我们从中生成无限数量的新示例

在不完全改变其含义的情况下，用紧密的同义词替换句子中的某些单词[7]。数据扩充还被证明可以改善手写识别系统的准确性[8]。Macia等。[9]还表明，经典算法（包括朴素贝叶斯和随机树）可以从数据增强中受益。

给定时间序列的任何集合。为此，我们提出了三种选择与数据集的时间序列关联的权重的方法。我们对UCR档案的85个数据集进行了实验，并证明了当使用1-NN DTW分类器来限制可用示例的数量（例如，每个类2至6个示例）时，我们的方法特别有用。此外，我们发现在大多数情况下扩充完整数据集是有益的，因为我们观察到56个数据集的准确性有所提高，对7个数据集没有影响，而对22个数据集则略有下降。

介绍

机器学习通常受益于更大的训练集。小训练集会导致过度拟合，而随着数据量的增加，过度拟合的问题逐渐减少[1]，[2]。对于许多应用程序，仅提供小型培训集。解决此问题的一种方法是通过生成合成（或人工）示例来扩大训练集。在机器学习中，数据增强是指创建合成示例以增强用于学习模型的数据集[3]的过程。

数据扩充背后的总体思路是减少由于方差引起的分类器误差，即，当样本太少而无法为模型学习准确参数时；然后说分类器过拟合。我们可以通过增加/去除分类器的表示偏差来影响方差（例如参见[4]）。增加表示偏差通常会减少方差，反之亦然。但是，在许多情况下，通过生成综合数据比通过修改分类器本身来表达我们对问题的知识

（即偏见）要容易得多。例如，可以稍微旋转包含房屋街

0 20 40 60 80 100 120

CBF数据集的圆柱类合成缸样品

0 20 40 60 80 100 120

图1：为CBF数据集的Cylinder类（左）生成的合成系列

（右）的示例，该示例通过平均从该类中获取的一组时间序列来进行平均。

综合示例的增强也已用于解决不平衡的班级（即，当训练集的班级没有相同数量的元素时）。例如，Chawla等。[10]提出了一种名为SMOTE（合成少数族裔过采样技术）的方法，该方法创建了合成少数族裔示例来平衡各个类。实验表明，C4.5，RIPPER和朴素贝叶斯分类器的错误率有所提高。

近年来，通过将动态时间规整（DTW）与非参数分类器

（例如最近邻居（NN））结合使用，在时间序列分类中取得了良好的效果。但是，大多数提议的方法仍然需要大量标记的训练数据才能有效地工作。相对很少关注用于时间扭曲下时间序列分类的增强方法的开发。例如， Le Guennec等。[11]提出拉伸或收缩时间序列的随机选择片段，以创建综合示例。

在本文中，我们介绍了生成一组

来自给定时间序列D的一组合成时间序列DI。将合成集DI与

D（DDI）相加形成一个扩充的数据集。要创建综合时间序

道编号的图像，而无需更改其实际编号[5]。语音可以略列， cup;

微加速或减速，而无需修改含义[6]。我们可以

我们建议对一组时间序列求平均，并将平均时间序列用作

新创建的示例。为了实现这一目标，我们开发了时间序列平均方法DBA（DTW重心平均）的加权版本[12]，

2374-8486/17 $31.00 copy; 2017 IEEE DOI 10.1109/ICDM.2017.106

865

通过简单地改变权重，就可以从给定的时间序列集中创建无限数量的新时间序列。此外，我们开发了三种方法来选择要分配给数据集序列的权重，从而使生成的示例紧密遵循从中采样D的分布。图1显示了使用我们的方法为CBF数据集的Cylinder类生成的合成时间序列的示例[13]。

在先前的工作中，我们制定了DBA算法，并证明了它在DTW [12]，[14]下一致地对时间序列进行平均。我们已经证明，通过构造每个班级中最具代表性的时间序列并且仅将其用于训练，DBA可用于加快NN-DTW [15]。在本文中，我们采取相反的角度。我们增加训练集的大小以提高分类准确性。与以前提出的技术不同，我们的新方法可以生成无限数量的合成时间序列，并调整权重分布以实现多样性。

为了评估新创建的时间序列的有效性，我们将增强训练集用于结合1-TW分类器和DTW进行时间序列分类。我们将使用UCR档案的85个数据集[13]进行两种类型的实验，以评估我们的方法。第一部分与冷启动问题有关，当开始学习预测模型时只有很少的示例可用时，就会出现该问题。我们表明，在这种情况下，使用我们的方法创建综合示例几乎总是有益的。在第二部分中，我们将使用合成时间序列将训练集的大小增加一倍，而不用考虑它们的原始大小。我们显示出，对于UCR存储库中的大多数数据集[13]（85 个中的56个），仅通过将新创建的时间序列添加到训练集中，即可提高1-NN DTW分类器的准确性。

方法

我们首先定义在这项工作中使用的关键术语。对于我们

的问题，数据集中的每个对象都是一个时间序列，其长度可能不同。

定义1：时间序列。时间序列T =（t，...，t）为

在本文中，我们使用DBA（DTW重心平均）作为最小化此功能的方法[14]。DBA使用期望最大化方案，并通过以下方式迭代地完善初始平均T：

期望：考虑固定T并找到与D一致的序列D集的最佳多重比对M（有关多重比对和DTW的更多详细信息，请参见[16]）。
最大化：现在考虑修复和更新M

T是与M一致的最佳平均序列。

尽管仅在给定固定的起始平均值的情况下DBA才是确定性的，但修改此起始时间序列不足以在合成数据集中创建足够的多样性。如果我们在一维欧几里得空间中查看问题，给定两个值（例如4和6），我们希望生成n个其他且不同的值。如果我们计算算术平均值，则最终只能得到新值5。但是，如果我们对每个输入示例进行加权并使用加权算术平均值，则可以计算出无限多个附加值。在这种情况下，某些数据点的贡献要大于其他数据点，而不是每个数据点对最终平均值的贡献均相等。使用“均匀加权”平均值的另一个问题是，当数据分布不是球形时，它可能导致不希望的时间序列。理想情况下，生成的数据应位于分布的流形上。想象一下，数据分布呈U形，计算此U的中心通常会构造非常不可能的对象。

剩下的问题是：（1）如何在动态时间扭曲的情况下始终如一地计算加权平均值；（2）如何确定每个时间序列的权重。

DTW的时间序列加权平均值

DBA [12]是一种迭代算法，它首先从集合中取一个时间序列取平均值（通常是medoid），然后更新该时间序列。计算加权平均值只会改变目标函数。

定义3：非时间序列的加权平均值

有序的一组实数值，其中 1 L DTW。给定一组加权的时间序列D =

L是长度。数据集D = T1，...，TN是此类时间序列的集合。

{ }

我们的方法背后的一般直觉是采取一套

DTW，T诱导的空间E中的（T1，w1），...，（TN，wn）平均时间序列是最小化的时间序列：

D中相同类别的时间序列的总和，计算加权 N

对T进行平均，并将该平均值用作新的合成时间序列以增

加D（即DT）。请注cup;意，我们方法的重要贡献是找到了权

arg min T isin; E wi

i=1

DTW 2(T, T ) (2)

重，因此我们可以很好地跟踪数据的流形。在我们的例子中，对象是时间序列，量度是DTW，这导致以下定义：

定义2：DTW的平均时间序列。给定一组时间序列D =

T1，。..，TN在由动{态时间规整}引起的空间E中，T的平均时间序列是将以下各项最小化的时间序列：

arg min T isin; E dtw 2(t, t ) (1)

从公式中可以看出，加权不会影响DTW的计算方式，这

意味着它不会更改DTW在T和D中的序列之间形成的映射。因此，DBA的期望部分正是与非加权版本的DBA相同（请参见[12]，[14]，[15]）。主要区别在于最大化阶段，我们在算法2中对此进行了描述。当通过DTW映射到当前平均值的每个元素时，我们记录与之相关的权重之和。表一给出了加权DBA的伪代码。为了确保我们工作的可重复性，我

们在[17]中提供了加权DBA的实现。

i=1

表I：加权DBA算法。在其余时间序列中保持一致（每个接收一个

重量为0.2 / N）。如果只有两个时间序列可用，则

算法1：加权DBA（D，W，I）

输入：D：要平均的序列集输入：W：权重集

输入：I：迭代次数

T = medoid（D，W）//获得序列D的集合的medoid；我乘以T

=加权DBA更新（T，D，W）; 返回T;

算法2：加权DBA更新（T在里面，D，W）

输入：T在里面：要细化的平均序列（长度为L）输入：D：要平均的序列集

输入：W：权重集

输出：T更新的平均值

T = 0(，...，)0是长度为L的序列

sumWeights = [0，...，0] //对于i

= 1，长度→为|L|的数组 D做

对齐方式= DTW对齐方式（T在里面，D（i））对于l = 1到L做

最近的邻居的权重为0.5。对于此方法，我们还使用这样一个事实，即在T*附近生成时间序列，并使用它初始化DBA。

D.所选平均距离（ASD）

第三种方法与AS方法具有相同的精神，但是它考虑了初始选择的时间序列与其最近邻居之间的相对距离。这个想法是

如果其他时间序列距离Tlowast;及其最近的邻居相对较远，则它们应比相对于它们的最近邻居的Tlowast;几乎相近的权重要低。从某种意义上说，我们正在尝试评估

通过使用到它的最近邻居的距离作为它的代理，在T邻域* 中进行分布。

至于以前的方法，我们首先随机选择一个

T（l）=上划线T（l）对齐[l]·W（i）

sumWeights[l] = W(i)

时间序列T

lowast; 从D得到权重为1。然后

结束结束

对于l = 1到L

T (l)= T (l)/sumWeights[l]

结束

为

剩余内容已隐藏，支付完成后下载完整资料

资料编号：[239450]，资料为PDF文档或Word文档，PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容！立即支付

注册

找回密码

生成合成时间序列以增强稀疏数据集外文翻译资料

定义1：时间序列。时间序列T =（t，...，t）为

DTW的时间序列加权平均值

定义3：非时间序列的加权平均值

D.所选平均距离（ASD）

您可能感兴趣的文章

最新文档

推荐栏目

登录

注册

找回密码

生成合成时间序列以增强稀疏数据集外文翻译资料

定义1：时间序列。时间序列T =（t，...，t）为

DTW的时间序列加权平均值

定义3：非时间序列的加权平均值

D.所选平均距离（ASD）

您可能感兴趣的文章

最新文档

推荐栏目