高维右删失数据的特征筛选方法及应用开题报告

2021-12-12 14:15:32

1. 研究目的与意义及国内外研究现状

随着“大数据时代”的到来，高维数据已出现在诸多领域，例如生物医学和金融领域等，高维数据的指标个数远远超过样本量，它的出现，导致很多传统的统计方法的适用性明显降低。

在生存分析中，右删失数据是又一种较为常见的数据，若一个样本中包含在观察期内未寿终的个体，就称这些数据为右删失数据，通常包括：①研究者在研究期间与患者失去联系(患者原因或研究者原因)；②患者在研究期内因为非研究目标而死亡，而这些情况下，我们都无法得到患者真实的生存时间，只能得到患者的观察时间，这部分数据就属于右删失的。同样对于这种数据，利用通常所采用的经验分布去估计样本的生存函数会产生较大的偏差。

鉴于高维右删失数据的普遍性和传统方法的适用性降低，探索合适的方法、进行合理的处理和研究对现实生活的相关领域（医学领域、金融领域等）具有重要的意义。

国内外研究现状

有关高维数据的降维方法，主要分为线性降维和非线性降维两种方法，常见的降维方法有：线性sis法、lasso、逐步回归（step）和向前回归（fr）等；有关删失数据的研究：吴月琴研究了纵向右删失数据下线性回归模型回归系数估计的均方相合性；徐芹研究了删失数据线性回归模型的参数估计；对于混合删失样本数据，王海建、赵跃生研究了被删失变量和删失变量之间不独立情况下kaplan-meier 的估计形式及密度函数估计的强一致收敛速度zongwu cai研究了删失数据kaplan-meier 估计的渐近正态性等。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

2. 研究的基本内容

基于生存分析中的高维右删失数据，首先将利用Kaplan-Meier估计法得到患者的生存函数以及生存率的标准误,进而根据生存函数得到患者的确切生存时间的估计，并将该估计值作为研究的因变量；然后将利用协变量与因变量相关系数的大小，同时结合随机重复抽样的方法粗略地筛选特征，利用无模型假定下的特征筛选方法进一步筛选并确定重要特征的个数；最后基于选定的重要特征建立Cox比例风险模型并绘制预测列线图。

实证部分将是对115名晚期乳腺癌患者、每名患者的12793个基因进行相关研究，主要将利用Kaplan-Meier估计法得到患者的生存率的估计、生存率的标准误及Kaplan-Meier曲线，进而利用上述特征筛选方法筛选对患者生存时间有显著影响的基因，并基于选定的重要基因建立Cox模型。

3. 实施方案、进度安排及预期效果

实施方案：

在指导老师的指导和帮助下，通过查阅和学习大量文献，确定研究目标，并将理论和实际相结合，通过多种方法的对比，得到较好的结果。

进度安排：

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

4. 参考文献

[1] 金春林,王锦福,郑树忠.生存分析kaplan—meier法简介[j].卫生软科学,1994,06:30-34.

[2] 王启华著.生存数据统计分析[m]. 科学出版社, 2006.

[3] 徐维超. 相关系数研究综述[j]. 广东工业大学报,2012,03:12-17.

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

注册

找回密码