基于兴趣度的序列模式挖掘算法的研究开题报告

2022-01-11 16:51:02

全文总字数：3573字

1. 研究目的与意义及国内外研究现状

近年来序列模式挖掘的获得了信息产业的极大关注，随着网络信息技术的飞速发展，序列模式挖掘在大数据时代的重要性和必要性日益凸显。国内外的研究人员针对序列模式挖掘提出了很多行之有效的理论和算法。目前。在生物遗传因子序列分析和医学诊断等尖端领域，web访问模式预测和态势数据分析等新型应用数据源等各种领域得到针对性研究。其成果产生的社会和经济效益不可估量。所以对序列模式挖掘的研究就显得尤为重要。

序列模式挖掘作为数据挖掘的一种技术手段，是关联规则挖掘的进一步发展。所谓序列模式，可以认为是在一个由有序元素组成的有序的序列数据集中（其中元素由有序项目组成），出现频次超过设置的阈值的序列组合构成的模式。

在早期模式挖掘的工作中，模式是被认为有趣的，如果它们在数据中频繁的出现。这个潜在的概念是如果一些事经常发生，那么这些对于数据开发者来说是有用的信息。但是，作为一个在研究领域的成熟的部分，频度并不是兴趣度量的好的代表。这是因为许多模式的频度在真实数据中可以简单解释为偶然性。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

2. 研究的基本内容

研究的内容包括：

1、全面了解国内外有关序列模式算法的研究，看是否有可以借鉴的想法或者思路；并且了解序列模式挖掘算法的相关应用；

2、抛弃必须设置最小支持度阈值minsup的思路，寻找由用户指定的k和兴趣度挖掘top-k序列的对比算法，现有的比较典型的top-k算法是tks和tsp，了解两种算法的基本思想和实现过程；

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

3. 实施方案、进度安排及预期效果

实施方案：基于opus提出skopus算法，准确且详细地定义了预期支持度，在兴趣度leverage部分进行改进。目前的度量方法是： leverage=sup(s)-expsupport(s)

因为序列长度越长，支持度肯定越小，所以可以对不同长度的序列加一个权重，这个权重就可以直接用序列的长度，所以可以乘一个l，起到平衡的作用；要是理论上好说明一点的话，这个权重可以等于序列的长度/数据集序列的平均长度，但其实序列的平均长度是常数，可以直接乘序列长度。改进后的度量方法是:

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

4. 参考文献

[1]　宋世杰, 胡华平, 周嘉伟,等. 一种基于大项集重用的序列模式挖掘算法[J]. 计算机研究与发展, 2006, 43(1):68-74.

[2] Fournier-Viger P, Gomariz A, Gueniche T, et al. TKS: Efficient Mining of Top-K Sequential Patterns[M]// Advanced Data Mining and Applications. Springer Berlin Heidelberg, 2013:109-120.

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

注册

找回密码