带右删失数据的广义部分线性变系数变换模型外文翻译资料

2022-11-24 15:13:22

英语原文共 9 页，剩余内容已隐藏，支付完成后下载完整资料

带右删失数据的广义部分线性变系数变换模型

关键词：广义部分线性变系数变换模型，边际似然B样条

摘要：在本文中，提出了使用广义部分线性变系数变换模型（GPLVCTM）分析右删失数据的统一最大边际似然估计值，它的灵活性足以包括许特殊情况下的许多生存模式。模型中未知函数系数用三次B样条多项式逼近。我们通过最大化边际似然函数来估计B样条系数和回归参数。这个过程的一个优点是它不受基准危险率函数和删失分布影响。通过仿真研究和实际数据应用（退伍军人管理局肺癌研究临床试验的VA数据），我们说明了所提出的估计过程准确，稳定，实用。

一．引言：

线性变换模型是已被广泛应用于分析右删失数据的一种模型,形式为（1）

其中T是生存时间变量，Z是相应的协变量向量，是已知累积分布函数的随机误差,h(t)是一个未知的单调递增连接函数，是回归系数向量.已经提出了各种方法来解决估计回归参数向量,模型（1）中被删失或未被删失的数据。Murphy等人在1997年通过用极大半参数似然的方法得到的估计; Lam和Leung在2001年通过MCMC近似算法获得最大边际似然估计; Pettitt在1984年和Cuzick在1988年采用秩方法来估计; 其他方法包括轮廓可能性（Chen and Little，2001），广义估计方程（Cheng et al.1995; Fine et al.，1998; Yang and Prentice,1999; Fine,1999; Chen et al.,2002; Cai et .，2002），非参数最大似然（Zeng和Lin，2007a，b)等。

注意，当随机误差分别遵循标准极值分布，标准回归分布和标准正态分布时，(1）可以归纳为比例风险Cox模型（Cox，1972），比例赔率模型（Pettitt，1982,1984; Bennett,1983; Dabrowska和Doksum,1988a; Murphy等,1997）和多项式概率模型（Thurstone ，1927年，1931）。（1）的典型假设是Z通过h（t）线性地影响生存时间变量。假设可以很容易地进行数学计算和模型解释。在许多应用中，这种假设可能是不正确的。例如，在退伍军人管理局肺癌试验中，治疗对生存时间的影响可能因患者年龄而异。更灵活的假设是（1）中Z具有非参数或半参数结构。 Lu和Li在2008年提出了一种非线性变换模型，并通过平滑样条逼近和提升算法估计了非线性效应。然而，Z的这种未指定的结构将遭受“维度的诅咒”。Wu等在2010年考虑了一次系数变换模型，并通过两步平滑法获得了一次系数变化参数的估计。然而，如果某些效应本身是固有的，那么这种模式可能会受到低效率的影响。更合适和更灵活的替代方案是：模型中，Z在（1）中具有部分线性变化系数结构，这种模型被称为部分线性变系数变换模型，其形式为（2）

其中，是线性和变系数分量中的协变量向量，是线性回归参数向量，是平滑回归系数函数向量，u测量x效应的变异性，这可能是生存时间，任何条目或其他变量。注意，如果是常数函数，则（2）减少到（1）。

给定Z，X和U，表示FZ，X，作为T的条件累积分布函数。然后模型（2）可以重写为

（3）

其中是具有Z = 0和X=0的T的基线累积分布函数。在本文中，我们考虑了一种

带右删失数据的广义部分线性变系数变换模型，这种模型以累积分布函数为形式：

（4）

其中是一个已知的单调递增的连接函数，对于任何，满足=1和，也分别相对于u和v第一和第二可微。注意，当F（t）为（3）或（2）时，如果F（t）归纳为标准极值分布函数，标准物流分布和标准正态分布函数时，则（4）分别为部分线性变系数比例风险模型，部分线性变系数比例赔率模型和部分线性变系数多项式概率模型。事实上，（4）可以看作是广义部分线性变换模型的扩展形式：

（5）

这是Gu等人在2005年考虑的一般转型模式的特例。在他们的论文中，他们提出了模型（5）的无基线估计过程，并通过最大化边际似然函数获得（5）中的的估计。他们的论文中的模拟研究表明，他们的估计程序是有效和适用的。

在本文2.2节中，我们利用三次B样条多项式逼近光滑函数系数，并通过AIC和BIC标准来选择节数。Gu等人在2005年还把模型（4）归纳为（5）。我们还通过最大化边缘似然性和Gu等人的三阶段MCMC-SA算法来估计模型参数，其中包括线性回归参数和B样条多项式系数。附录A中提供了用于右删失数据的Gibbs抽样程序。

本文的其余部分组织如下。在第2节中，我们描述了估计程序。在第3节中，所提出的方法的实证性能说明了一些模拟研究，并且VA数据集的例子是从退伍军人管理肺癌研究的临床试验中得到的。在附录A中给出了右删失数据的Gibbs抽样过程。

二.估计程序

2.1. 最大边际似然估计（MMLE）

为了使用三次B样条多项式来近似模型（4）中的平滑函数系数，我们假设具有二阶连续导数。

让C为设限时间变量，使其有条件地独立于T，给定协变量Z，X，U，并且让为事件时间变量和是检查指标变量。假设是来自人口的样本。让是基础生存时间的完整秩向量而是未经审查的存活时间的总数。注意，由于检查可能部分地观察到Rn。

将由未删失的生存时间的等级组成的表示为T的部分等级向量。如果是包含所有n的集合，则表示为潜在生存时间向量T的可能秩向量，而且与一致，给定为，表示：

其中是第r个未经审查的生存时间的标签，是属于间隔中检查的那些观察值对应的一组标签，并且和。如果假定未删失的存活时代没有彼此通过纸张来联系，然后给出，事件可以通过来表征。

因为B样条多项式插值数值的稳定性，所以就为现代非参数和半参数建模提供了有效的方法。 DeBoor在1978年为此详细讨论了这种方法。 Sleeper和Harrington在1990年使用B样条近似法估计加性Cox回归模型中的加和效应函数。Nan等人在2005考虑了使用B样条法进行变系数Cox回归模型的估计。B样条多项式的阶数r与结具有以下属性：

（i）for；（ii） for；（iii）

For 任何.可以看出，对于任何和

都成立.

在本节中，我们将使用三次B样条多项式近似未知平滑功能系数，并在2.2节

中通过AIC和BIC标准来选择结数。由于我们假设Z中的协变量的所有效应随着相同的

变量U而变化，所以在B样条多项式近似中，的共享相同的基地，其中差异仅

仅是B样条系数。然后，对于固定节点，.可以近似为

（6）

其中是B样条基矢量，是样

条系数向量，d是B样条基的尺寸（即，如果考虑M内结，则d = 4 M）。

为了简化符号，对于固定节,表示

，其中。那么模型（4）可以近似为

（7）

注意，对于固定节点，C（V）是V的已知矢量函数，这意味着当给出V时，也给出等价的C（V）。因此，如果将C（V）视为模型（7）的协变量向量，则模型（4）的分析减少到分析（5）—（7）。表示为基于模型（7）的g的最大边际似然估计（MMLE），然后忽略模型近似误差，对于任何，函数系数可以表示为

（8）

接下来，我们基于模型（7）介绍g的MMLE。为了简洁，表示为

那么边际似然函数和分数函数由下式给出：

= （9）

和：

其中：

对于和是与等一致的（0,1）向量的对应集合。

和：

(11) 的条件密度函数.给定和.注意，（9）的最后一个等式基于简单的变换，，并且（10）的最后相等的期望对应于条件密度（11）。然后，的边际似然估计可以通过:

(12) 来解决.

从（9）可以看出，边际可能性没有妨碍参数，所以MMLE及其对应的协方差矩阵也是如此。他的渐近方差 - 协方差矩阵可以通过的倒数来估计，并且通过

其中：

和并且表示任何列向量的.

表示和作为的真实值.如果区分和积分可以在的邻域变化，那么可以看出

(13)

注意，由于（10）中的高维积分和条件密度中的归一化常数，直接求解等式（12）是困难和不可能的; 为了克服障碍，采用Gu等人的三阶段MCMC-SA算法（2005）利用Gibbs抽样程序对附录A中的权利审查数据进行了解，以求解等式（12）。

2.2选择结

对于固定数量的结，比如K，我们选择等间距的采样分位数作为结。然而，如果功能有不连续性，需要在其附近放一个结。如果边界上没有足够的数据，应该在边界上加上更多的结，以避免奇点。对于单调或单峰平滑函数，少于五个内结似乎谁应该的。在我们的实施中，我们在大范围内改变结的数量，然后选择最小化AIC或BIC的结果，给出：

(14)

其中d=k 4和可以由LAM和LENUG针对比例赔率模型考虑的蒙特卡罗数值算法近似得到。

表示为Tn的不完整等级，其中如果在对于中被截断，那么可以很容易地获得：

(15)

其中：我们将（15）中的被积函数乘 (16) 然后除于

其中，其中是间隔中的检查观察次数并且是在之前的风险受试者的数量.显然，是与一致的n个生存时间中可能排名的总数，（16）是进化型II检查下的的密度函数.那么可以表示为:

(17)

其中期望值对应于密度（16）并且：

因此，可以近似为：

(18)

其中，其中是来自均匀分布的渐进型II检查的大小为n的随机样本的标识次序统计的M个独立实现。

三.数值研究

在本节中，使用一些模拟研究和VA数据集应用来说明我们提出的方法。

3.1模拟研究

在模拟研究中，估计器由定义的均方根误差（RMSE）评估，其中规则网格点. 可以通过序列估计。节数由AIC和BIC标准选择。在我们的模拟中，我们发现估计过程对结数不是非常敏感。所以我们决定在模拟研究中选择四节B样条逼近法。

我们考虑以下一般部分线性变系数变换模型：

（19）

其中：和分别作为标准极值分布函数和标准正态分布函数，其结果对应于比例风险模型（PH）和多项式（MP）模型。

（19）中的参数设置如下：，而协变量是从以下分布独立生成的：所有基线累积分布函数取为。对于每个模型，我们考虑三个审查案例，第一个案例：没有删失，第二个案例：15%删失率，第三个案例：27％删失率。对于这两种模型，审查变量C遵循形式的指数分布，就危害函数而言，（19）其中，b被适当选择，使检查率分别为0％，15％和27％。我们生成150个数据集，每个删失案例和每个模型都有100个观察结果。

在模拟中，使用三次B样条多项式近似平滑函数。我们运行的三阶段MCMC-SA算法。的初始值由生成，被选为零矩阵，这些从U（0,1）生成，然后对其进行排序，使其与生存次数一致。图（a） —（d）图1显示了的典型拟合曲线以及相应的95％置信区间（CI），检测率为15％，检测率为16％的MP模型。这些典型的样品被选择为使其RMSE等于100次重复中的中值。表1给出了三种检测情况下PH模型和MP模型的参数估计结果的总结，包括估计平均值（平均值），样本标准偏差（SStd），Gu等第三阶段的估计标准偏差（Std）值。（2005）和95％的覆盖概率（Cp）。表2列出了每个模型和每个检查情况下RMSE的样本均值（平均值）和样本标准偏差（Std）。

从图。 1，我们可以看出，的拟合曲线非常接近每个模型的真实线。注意，图（a） - （d）

剩余内容已隐藏，支付完成后下载完整资料

资料编号：[26422]，资料为PDF文档或Word文档，PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容！立即支付

注册

找回密码