超高维生存数据的删失秩独立筛选外文翻译资料

2022-12-12 17:09:03

英语原文共 16 页，剩余内容已隐藏，支付完成后下载完整资料

Biometrika Advance Access published October 24,2014

Biometrika(2014),pp.1-16

超高维生存数据的删失秩独立筛选

RUI SONG，WENBIN LU

北卡罗来纳州立大学统计系，美国北卡罗来纳州罗利校区27695

rsong@ncsu.edu，lu@stat.ncsu.edu

SUANGGE MA

耶鲁大学公共卫生学院生物统计学系，美国康涅狄格州纽黑文校区06510

shuangge.ma@yale.edu

X.JESSIE JENG

北卡罗来纳州立大学统计系，美国北卡罗来纳州罗利校区27695

xjjeng@ncsu.edu

摘要

在现代统计应用中，协变量的维数可能远大于样本量。在线性模型的背景下，相关性筛选（Fan＆Lv，JR Statist.Soc.B，70,849-911,2008）已经被证明可以有效地减少这些数据的维数，同时实现确定筛选属性，即，所有的显著变量可以以高的概率被保留。然而，基于Pearson相关性的筛选在应用于受污染的协变量和/或删失数据时表现不佳。在本文中，我们研究了高维生存数据的删失秩的独立筛选。所提出的方法对于包含异常值的预测因子是稳健的，适用于一般类别的生存模型，并且具有确定的筛选特性。模拟和实际数据分析表明，所提出的方法对中等大小和高维度预测因子的生存数据集具有竞争性，即使这些数据处于污染状态。

关键词：高维生存数据; 秩独立筛选; 确定筛选性质。

1.引言

我们的研究是由一个乳腺癌数据集（van Houwelingen等，2006）推动的，数据包含了295位乳腺癌患者的24 885个候选基因的表达谱。首先要做的是找到可预测乳腺癌患者总生存时间的基因。除了维数很大外，一些预测因子不是正态分布的，而是包含异常值（见补充材料）。这些现象在微阵列数据中很常见。高维度和异常的存在使得删失的生存数据的变量选择具有挑战性。

在文献中有许多关于有无删失的回归问题的变量选择的研究。最近，许多研究集中在惩罚方法的研究，例如lasso（Tibshirani，1996），SCAD（Fan＆Li，2001），Dantzig选择（Candes＆Tao，2007）和其他方法，已经对这些方法进行了深入研究，用于高维数据的变量选择（例如，van de Geer，2008; Bickel等人，2009; Meinshausen＆Yu，2009）。对生存结果的变量选择的研究包括惩罚部分似然性（Fan＆Li，2002; Tibshirani，1997; Zhang＆Lu，2007），惩罚估计方程（Johnson et al。，2008; Johnson，2008）用于同时进行变量选择和估计。一般来说，相关的优化问题可以针对中等到大的p快速解决，例如p是数百或数千。然而，对于非常大的p，例如在微阵列数据中遇到的，这些方法仍然在计算上要求很高。

在实践中可以很好地应用于超高维数据的计算简单方法是确定独立性筛选，这在Fan＆Lv（2008）的经典回归上下文中被证明。在该方法中，结果变量分别在每个协变量上回归。确定的独立筛选收录了具有最佳边际效用的特征。在线性模型的最小二乘回归中，这对应于最大边际绝对Pearson相关性的反应和预测。 Fan＆Lv（2008）表明该方法具有可靠的筛选性质：概率非常接近一，该方法可以保留模型中的所有重要特征。它也可以从经验似然的角度得出（Hall et al。，2009）。相关性筛选是减少数据维数的粗略而有效的方法。然而，Pearson相关法可能不适用于删失生存数据，因为它不能可靠地估计，尤其是当删失率高时。此外，由于相关性不是一个强大的关联度量，因此其预测因子的异常值可能会被破坏。这种异常值对筛选方法的理论研究造成麻烦，其中大多数需要协变量的尾部概率条件。

高维生存数据的变量筛选方法大多基于Cox模型的部分似然性。例如，Tibshirani（2009）使用lasso惩罚方法进行预先筛选。 Zhao＆Li（2012）提出了一种基于标准化边缘最大似然估计的筛选方法。然而，在实践中，真实的模型常常是未知的，并且不清楚这些方法是否会在模型错误指定下表现良好.Gorst-Rasmussen＆Scheike（2013）提出了无模型筛选统计量：存活时间的特征差异。对于每个协变量，这个新的统计量相当于边际对数秩检验的统计量。这些筛选方法可能受异常值预测因素的影响。

在本文中，我们提出了一种对高维生存数据的删失秩的独立筛选方法。我们考虑的秩统计量可以被视为一个逆概率加权Kendalls （Kendall，1962）。我们提出的方法有几个优点。首先，当异常值存在时是稳健的。这种稳健性继承于Kendalls 系数（Sen，1968）。第二，它是一个非基于模型的方法，所以它广泛的适用于一大类生存模型。与Pearsonrsquo;s相关性相反，Kendalls在响应和预测变量的单调变换下是不变的。这种不变性允许我们的方法发现响应和预测变量之间的任何非线性关系。第三，所提出的方法比其他一些高维方法有技术改进，因为所提出的筛选实用程序是具有有界核函数的U统计量，这使得我们能够获得确定的筛选性能而不需要尾部概率条件。

2. 删失秩的独立筛选

令T表示感兴趣的事件时间，C表示删失时间，表示协变量的p维向量。此外，定义,,,其中表示指标函数。观察到的数据是独立的,与同分布，并且由,定义,其中，。在整篇论文中，假设删失时间C与事件时间T和协变量X独立。令,,。令表示活动变量的索引集：

我们的目标是选择一组活动变量,其中。

我们考虑以下反向概率加权边际秩的相关效用，

其中是Kaplan-Meier法估算的，我们定义0/0=0来使定义的更好。对于预先集合,我们令为活动变量。以这种方式，该模型中使用的协变量的维数可以减小到远小于n的值。

令，可以表示成

并且由此得出提供的一致估计。假设没有任何特定的模型结构，例如比例风险模型，由提出的删失秩的独立性筛选所选择的集合包括与失败时间具有较强边际秩相关性的变量。在下一节中，我们将展示所提出的方法在一般条件下具有可靠的筛选性质。

3.确定筛选性质

设与独立同分布，需要以下条件：

条件1：存在,使得。

条件2：,其中。

Peng＆Fine（2009）采用的条件1是简化渐近性的推导的技术条件。因为条件1适用于许多临床环境，所以它在文献中广泛使用。条件2是确保筛选性质的关键假设，即使没有假定特定的模型形式。这表明，为了确保筛选的准确性，活动变量和响应变量之间的最小边际秩相关性应当超过某一定值。

定理1.对于任何正常数,当,存在常数,使得

其中是范数，D是由附录的引理A1中引入的常数，当条件2成立的时候，取，使得

其中s是属于的数值变量。

定理1的第一个结果说明，确定筛选性质的条件对于我们的方法来讲是准确的。具体来说，当n趋近于无穷大时，最大维数为，这个极限与Fan＆Lv（2008）在线性模型设置中的相关性学习中获得的极限相同，并且比Fan＆Song（2010）中获得的结果更强。因为不需要协变量的尾部概率条件，所以确定筛选性质的条件比Fan＆Lv（2008）和Fan＆Song（2010）中的条件更宽松。因此，我们的方法通常允许重尾协变量。此外，其对于模型错误指定是稳健的的，因为不需要模型假设来确定筛选性质。在下一节中，我们将所提出的方法应用于一般类别的变换模型，在该类别下，将提供用于表示条件2的一组充分条件，并且可以控制集合的大小。

定值控制有多少协变量通过筛选，为了确保屏蔽特性的确定性，可以被认为是小于最小信号的任何值，最小信号与估计噪声是可区分的。如果在信号变量和噪声变量之间存在间隙，则可以实现模型选择一致性，即,。在这种情况下，模型选择一致性的充分条件是与是独立的，然后

4.重要集合的选择

在应用程序中，通常的做法是为后续研究选择顶级变量的前缀数。前缀数可以反映研究人员对敏感预测因子的数量或预算限制的提前认识(Skol et al., 2006; Kuo amp; Zaykin, 2011)。另一个常用的程序是将的大小设置为小于样本大小的数字，以便可以在情景中执行后续回归分析（Fan＆Lv,2008）。 Datadriven基于筛选统计选择重要组大小的程序是吸引人的，但相对有限。Zhao＆Li（2012）提出了一种基于控制假阳性率的原则选择方法，但对于筛选目的可能是保守的，因为控制假阳性率在低水平可能导致大的假阴性误差。

我们建议在多个测试文献中使用开发的技术来估计重要集合的大小。具体来说，考虑假设，,在下，我们可以表明在分布中收敛于均值为零的正态随机变量，并且可以使用类似于Fine（1998）等人研究的U统计技术来一致地估计其渐近方差。令表示的渐近方差估计。然后，用于检验的p值可以计算为，其中是标准正态累积分布函数。将p值排序为，让表示集合A的大小。真信号的比例为。对于大量独立检验的假设，Meinshausen＆Rice（2006）证明可以被一致地估计为

然而，对于一般非独立检验统计，例如我们提出的删失秩的筛选统计量，的一致性通常是不清楚的。在本文中，我们使用作为和集合的估计量。我们在第6节中研究该估计量的经验性能。

5.应用于一般类别的转换模型

虽然我们方法的确定筛选特性不依赖于具体的建模形式，但是不假定模型结构，不容易指定活动集。为了从基于模型的方法和无模型的方法的方面受益，考虑包含基础真实模型的一类模型是有帮助的。在这里，我们考虑一个一般类的变换模型，根据该变换模型，可以容易地指定活动集，并且确定筛选特性将成立。

具体来说，一般类别的变换模型由下式给出：

（1）

其中是递增变换函数，在X中的每个元素都是单调的，并且独立于并且具有连续分布函数。在模型（1）下，条件生存函数采用以下形式：

其中是的生存函数。这类变换模型包括许多流行的生存模型作为特殊情况。例如，当未知，指定的，并且时，模型（1）成为线性变换模型（Clayton＆Cuzick，1985）。当H为对数变换，未指定，时，模型（1）成为加速失效时间模型（Kalbfleisch ＆Prentice，2002）。转化模型的其他实例包括赔率，反高斯和对数正态家族（Scharfstein et al.，1998; Kosorok et al.，2004）。

对于具有的转换模型，很明显，,其中，一般来说，可以被定义为A的最小子集，使得是仅仅在中的协变量函数，即，变换模型可以等效地写成，定义，为有效变量的数量，并且。

对于，定义，其中期望是关于协变量在中的联合分布，趋近于x,,其中在不失一般性的情况下，假设具有平均值0和方差1。以下条件足以保证条件2适用于形式（1）的模型。

条件3. 对于任何，给定的条件密度函数是单峰的。

条件4. 对于任何，存在正常数和，使得的方差均匀地由限定，并且的条件方差给定由均匀地限制在上面。

条件5. 对于任何，存在一个与p无关的正常数，使得，其中。

建议1.如果条件3-5成立，则条件2对于某些gt; 0成立。

由于在的每个元素中是单调的，在x中是单调的。作为到的单变量维度的边缘投影，被用作将联合模型的单调性传递到边际模型的简单方式。条件3和4可以凭经验检查。条件5规定，有效集合中的的最小绝对偏差可用作变换模型的可检测信号的测量。

接下来，我们表明集合的大小可以被控制用于具有的线性变换模型。这个结果在理论上与Fan＆Song（2010）的定理5相似。需要以下条件。

条件6. 对于任何，给定的的条件密度函数是单峰的并且围绕零对称。

理论2.在条件1和3-6下，当时，对于，存在正常数

使得

其中是X的协方差的矩阵，是最大特征值。

在定理1中选择，如果的协方差矩阵的最大特征值对于一些是多阶的，则根据定理2，的大小是多项式阶数。这表明所选集合的大小实际上可以被有效地控制。

6.仿真研究

我们进行模拟，以评估拟议的删失秩独立筛选方法的经验性能。为了比较，我们考虑了三种替代方法：存活时间筛选的特征畸变（Gorst-Rasmussen＆Scheike，2013），部分似然比筛选和相关筛选。对于部分似然比筛选，我们拟合每个协变量的边缘Cox模型，并构建相应的部分似然比统计量与无协变量模型。这种方法渐近地等同于Zhao＆Li（2012）提出的筛选方法。对于相关筛选，我们使用未经审查的数据来计算事件时间和协变量之间的边际相关性，使用反向概率检验加权法。这推广了标准确定的独立筛选线性回归的生存数据。

故障时间是从线性变换模型类生成的,其中，是协变量的p维向量，我们设置n =100,300和p = 5000,1000。协变量由具有平均值0，方差1和一阶自回归结构的多变量正态分布产生，即，，我们考虑了真实回归系数的两种情景：情景一，，情景二，

场景2比场景1更具挑战性，因为有几个活动变量具有相对较小的影响。我们考虑了三个误差分布：标准极值分布，其对应于比例风险模型;标准对数分布，其对应于比例赔率模型;和标准正态分布，其对应于正态变换模型。截断时间由[0，c]上的均匀分布产生，其中选择以实现15％和

剩余内容已隐藏，支付完成后下载完整资料

资料编号：[27203]，资料为PDF文档或Word文档，PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容！立即支付

注册

找回密码