基于似然比卡方统计量的超高维数据特征筛选研究开题报告

2021-12-30 21:17:48

全文总字数：5463字

1. 研究目的与意义及国内外研究现状

随着网络与通信技术的飞速发展，当人们进入信息时代后，在实际生活工作过程中通常会遇到各种海量数据问题，比如证券市场的交易数据等等，这些大型数据不仅复杂无结构，而且维数较高，这种数据通常被称为高维数据。面对这样一个庞大的数据库，如何从中快速、有效地找寻到有价值的信息，是现代统计学的一大挑战。此外，当出现“维数灾难”问题，以及当维数增长时，分析和处理数据的复杂度、成本以及所需的空间样本数都将呈指数级增长等问题时，传统的多元统计方法在处理高维数据问题时总是会遇到很多困难，因此在处理高维问题时遇到了极大的挑战，例如数据的计算量迅速增大，数据维数高导致的样本量变少使得一些统计上的渐近性难以实现，传统分析处理方法不能满足鲁棒性要求等等。这些问题都给高维数据的处理带来了极大的困难，所以找到适用于高维数据的统计方法是很有必要的。

国内外研究现状

目前，在超高维数据特征筛选方面已有大量的研究成果。超高维特征筛选一般遵循“两步走”的筛选过程，其主要思路是首先对超高维数据进行大规模粗略的变量筛选，选出对目标变量有重大贡献的部分变量，再用传统的变量选择方法对变量进行选择建模。其中，Fan和Lv基于高维线性模型提出了SIS方法，同时提出了确定性筛选性质（the sure screening property），说明在适当的条件下，皮尔逊相关排序方法在超高维线性回归模型中具有确定性筛选性；Wang针对超高维线性模型的变量筛选提出了前移回归法；Fan、Samworth和Wu、Fan和Song分别提出了基于广义超高维线性模型和基于logistic回归模型的极大边际似然估计筛选方法；Hall和Miller通过考虑预测器的多项式变换对皮尔逊相关排序方法进行了拓展；Fan和Fan根据独立正态模型提出了边际t检验筛选法，同样证明了此方法在很大概率上具有确定性筛选性；Fan、Feng和Song提出了超高维稀疏可加模型中的非参数独立筛选方法；Li等人针对线性模型中的SIS方法做了秩相关分析；Ji和Jin提出了UPS方法，理论性地说明在某些参数集合中，UPS方法优于LASSO方法和子集选取法；Liu，Li和Wu基于有条件的皮尔逊相关系数提出了变系数SIS模型。这些方法的特点是基于特定的模型，然而在高维数据分析过程中，想要找到合适的模型是很困难的，因此，Zhu等人提出了无模型方法（model-free procedure）并且证明了其符合确定性筛选性质以及排名一致属性；Li，Zhong和Zhu提出了基于距离相关性的无模型DC-SIS法，同时该文献证明了此方法优于普通SIS；He，Wang和Hong针对超高维异构数据提出了分位数自适应无模型SIS法（quantile-adaptive model-free SIS）；Mai和Zou针对超高维二元分类的变量筛选提出了柯尔莫戈洛夫过滤器（the Kolmogorov filter）的方法，是基于柯尔莫戈洛夫统计量建立的无模型SIS方法。

2. 研究的基本内容

为了处理超高维属性数据问题，本文提出了似然比卡方统计筛选方法，该统计量指标是同时反映灵敏度和特异度的复合指标，全面反映筛选的价值，不仅非常稳定，同时该算法可利用于有20%以上的单元格的期望频数小于5或者最小的为1的样本数据。同时，似然比卡方统计筛选算法也是一个无模型算法，即其允许响应变量与协变量之间存在任意回归关系，同时算法还可应用于单变量与多变量的响应变量，变量是否连续对于算法来说没有任何影响，除此之外，算法还可以应用于分组筛选，因此降低了在分析超高维数据初期指定模型等一系列困难的难度。总之，该算法提供了一种超高维数据分析特征筛选的方法。本文还将利用U统计量性质、各种指数不等式从渐近理论上证明其特征筛选的筛选相合性和重要变量的排序秩相合性，并通过数值模拟验证其有限样本性质。该方法还将被应用于实际数据进行实例分析，给出建模方法的构建和结果的决策分析。

3. 实施方案、进度安排及预期效果

本文实施方案主要有三步：

1. 文献检索。本文的研究需要首先阅读大量的文献成果，才能总结出现在本论题的研究进展情况，找出以前研究的不足和避免研究内容的重复性；此外，也需要借助文献检索法，通过各种资料的介绍进行分析总结。

2. 比较分析。在论文中将对国内与国外相关文献进行分析，需要对两者的原理、思想内容等各方面进行比较，总结出不同的特点，看出国内与国外存在的差距，还要分析出既有文献的不足，进而根据不足提出本文的解决方法。

3. 理论联系实际。对似然比卡方统计量进行分析，结合现实中的实例，提出分类的结果。

进度安排：

第一、二周（2月20日至3月5日）	确定论文选题，收集课题有关资料，对课题进行详细的了解分析，查看大量的文献。在老师的指导下，完成论文开题报告。
第三、四周（ 3月6日至3月19日）	大量收集论文资料，理清论文思路，将关于论文的想法与导师进行交流，根据导师的建议和自己的分析理解，发现论文构思的不足之处，对论文思路进行完善。
第五、六周（3月20日至4月2日）	正式开始论文工作，撰写中英文摘要，阐述论文写作背景和选题所要解决的问题，并基本构造好论文总体框架。
第七、八周（ 4月3日至4月16日）	在查阅大量文献，运用多种研究方案，并加之认真思考创作的基础上，基本完成初稿。
第九、十周（ 4月17日至4月30日）	将初稿完善交由导师审阅，提出修改建议。
第十一周至毕业论文工作结束（ 5月1日至 6月10日）	根据学院的进度安排，在导师的指导下完成论文初稿修改，经过反复修改，形成终稿，装订成册上交学院，同时为毕业论文答辩做准备工作

预期效果：

本文第二部分将介绍LR-SIS的思想与算法建立，同时建立其理论性质。第三部分将利用蒙特卡罗方法进行数值模拟研究，第四部分将利用LR-SIS方法解决邮件分类特征关键词的筛选问题，同时理论的证明与必要的程序附在最后的附录当中。

4. 参考文献

[1] fan,j. and lv,j. sure independence screening for ultrahigh dimensional feature space (with discussion).j.r.srarist.soc.2008,b 70,849-911.

[2] wang,h. forward regression for ultra-high dimensional variable screening.journal of the american statistical association.2009,104,1512-1524.

[3] fan,j.,samworth,r. and wu,y. ultrahigh dimensional feature selection:beyond the linear model.j.mach.learn.res.2009,10,2013-38.

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

注册

找回密码