登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 外文翻译 > 理工学类 > 统计学 > 正文

带右删失数据的广义部分线性变系数变换模型外文翻译资料

 2022-11-24 03:11  

英语原文共 9 页,剩余内容已隐藏,支付完成后下载完整资料


带右删失数据的广义部分线性变系数变换模型

关键词:广义部分线性变系数变换模型,边际似然B样条

摘要:在本文中,提出了使用广义部分线性变系数变换模型(GPLVCTM)分析右删失数据的统一最大边际似然估计值,它的灵活性足以包括许特殊情况下的许多生存模式。模型中未知函数系数用三次B样条多项式逼近。我们通过最大化边际似然函数来估计B样条系数和回归参数。这个过程的一个优点是它不受基准危险率函数和删失分布影响。通过仿真研究和实际数据应用(退伍军人管理局肺癌研究临床试验的VA数据),我们说明了所提出的估计过程准确,稳定,实用。

一.引言

线性变换模型是已被广泛应用于分析右删失数据的一种模型,形式为 (1)

其中T是生存时间变量,Z是相应的协变量向量,是已知累积分布函数的随机误差,h(t)是一个未知的单调递增连接函数,是回归系数向量.已经提出了各种方法来解决估计回归参数向量,模型(1)中被删失或未被删失的数据。Murphy等人 在1997年通过用极大半参数似然的方法得到的估计; Lam和Leung在2001年通过MCMC近似算法获得最大边际似然估计; Pettitt在1984年和Cuzick在1988年采用秩方法来估计; 其他方法包括轮廓可能性(Chen and Little,2001),广义估计方程(Cheng et al.1995; Fine et al.,1998; Yang and Prentice,1999; Fine,1999; Chen et al.,2002; Cai et .,2002),非参数最大似然(Zeng和Lin,2007a,b)等。

注意,当随机误差分别遵循标准极值分布,标准回归分布和标准正态分布时,(1)可以归纳为比例风险Cox模型(Cox,1972),比例赔率模型(Pettitt,1982,1984; Bennett,1983; Dabrowska和Doksum,1988a; Murphy等,1997)和多项式概率模型(Thurstone ,1927年,1931)。 (1)的典型假设是Z通过h(t)线性地影响生存时间变量。假设可以很容易地进行数学计算和模型解释。在许多应用中,这种假设可能是不正确的。例如,在退伍军人管理局肺癌试验中,治疗对生存时间的影响可能因患者年龄而异。更灵活的假设是(1)中Z具有非参数或半参数结构。 Lu和Li在2008年提出了一种非线性变换模型,并通过平滑样条逼近和提升算法估计了非线性效应。然而,Z的这种未指定的结构将遭受“维度的诅咒”。Wu等在2010年考虑了一次系数变换模型,并通过两步平滑法获得了一次系数变化参数的估计。然而,如果某些效应本身是固有的,那么这种模式可能会受到低效率的影响。更合适和更灵活的替代方案是:模型中,Z在(1)中具有部分线性变化系数结构,这种模型被称为部分线性变系数变换模型,其形式为 (2)

其中,是线性和变系数分量中的协变量向量,是线性回归参数向量,是平滑回归系数函数向量,u测量x效应的变异性,这可能是生存时间,任何条目或其他变量。 注意,如果是常数函数,则(2)减少到(1)。

给定Z,X和U,表示FZ,X,作为T的条件累积分布函数。然后模型(2)可以重写为

(3)

其中是具有Z = 0和X=0的T的基线累积分布函数。 在本文中,我们考虑了一种

带右删失数据的广义部分线性变系数变换模型,这种模型以累积分布函数为形式:

(4)

其中是一个已知的单调递增的连接函数,对于任何,满足=1和,也分别相对于u和v第一和第二可微 。 注意,当F(t)为(3)或(2)时,如果F(t)归纳为标准极值分布函数,标准物流分布和标准正态分布函数时,则(4) 分别为部分线性变系数比例风险模型,部分线性变系数比例赔率模型和部分线性变系数多项式概率模型。 事实上,(4)可以看作是广义部分线性变换模型的扩展形式:

(5)

这是Gu等人在2005年考虑的一般转型模式的特例。在他们的论文中,他们提出了模型(5)的无基线估计过程,并通过最大化边际似然函数获得(5)中的的估计。 他们的论文中的模拟研究表明,他们的估计程序是有效和适用的。

在本文2.2节中,我们利用三次B样条多项式逼近光滑函数系数,并通过AIC和BIC标准来选择节数。Gu等人在2005年还把 模型(4)归纳为(5)。我们还通过最大化边缘似然性和Gu等人的三阶段MCMC-SA算法来估计模型参数,其中包括线性回归参数和B样条多项式系数。 附录A中提供了用于右删失数据的Gibbs抽样程序。

本文的其余部分组织如下。在第2节中,我们描述了估计程序。在第3节中,所提出的方法的实证性能说明了一些模拟 研究,并且VA数据集的例子是从退伍军人管理肺癌研究的临床试验中得到的。在附录A中给出了右删失数据的Gibbs抽样过程。

二.估计程序

2.1. 最大边际似然估计(MMLE)

为了使用三次B样条多项式来近似模型(4)中的平滑函数系数,我们假设具有二阶连续导数。

让C为设限时间变量,使其有条件地独立于T,给定协变量Z,X,U,并且让为事件时间变量和是检查指标变量。假设是 来自人口的样本。 让是基础生存时间的完整秩向量而是未经审查的存活时间的总数。 注意,由于检查可能部分地观察到Rn。

将由未删失的生存时间的等级组成的表示为T的部分等级向量。 如果是包含所有n的集合,则 表示为潜在生存时间向量T的可能秩向量,而且与一致,给定为,表示:

其中是第r个未经审查的生存时间的标签,是属于间隔中检查的那些观察值对应的一组标签,并且和。如果假定未删失的存活时代没有彼此通过纸张来联系,然后给出,事件可以通过来表征。

因为B样条多项式插值数值的稳定性,所以就为现代非参数和半参数建模提供了有效的方法。 DeBoor在1978年为此详细讨论了这种方法。 Sleeper和Harrington在1990年使用B样条近似法估计加性Cox回归模型中的加和效应函数。Nan等人在2005考虑了使用B样条法进行变系数Cox回归模型的估计。B样条多项式的阶数r与结具有以下属性:

(i)for;(ii) for;(iii)

For 任何.可以看出,对于任何和

都成立.

在本节中,我们将使用三次B样条多项式近似未知平滑功能系数,并在2.2节

中通过AIC和BIC标准来选择结数。 由于我们假设Z中的协变量的所有效应随着相同 的

变量U而变化,所以在B样条多项式近似中,的共享相同的基地,其中差异仅

仅是B样条系数。 然后,对于固定节点,.可以近似为

(6)

其中是B样条基矢量,是样

条系数向量,d是B样条基的尺寸(即,如果考虑M内结,则d = 4 M)。

为了简化符号,对于固定节,表示

,其中。那么模型(4)可以近似为

(7)

注意,对于固定节点,C(V)是V的已知矢量函数,这意味着当给出V时,也给出等价的C(V)。 因此,如果将C(V)视为模型(7)的协变量向量,则模型(4)的分析减少到分析(5)—(7)。 表示为基于模型(7)的g的最大边际似然估计(MMLE),然后忽略模型近似误差,对于任何,函数系数可以表示为

(8)

接下来,我们基于模型(7)介绍g的MMLE。为了简洁,表示为

那么边际似然函数和分数函数由下式给出:

= (9)

和:

其中:

对于和是与等一致的(0,1)向量的对应集合。

和:

(11) 的条件密度函数.给定和.注意,(9)的最后一个等式基于简单的变换,,并且(10)的最后相等的期望对应于条件密度(11)。然后,的边际似然估计可以通过:

(12) 来解决.

从(9)可以看出,边际可能性没有妨碍参数,所以MMLE及其对应的协方差矩阵也是如此。他的渐近方差 - 协方差矩阵可以通过的倒数来估计,并且通过

其中:

和并且表示任何列向量的.

表示和作为的真实值.如果区分和积分可以在的邻域变化,那么可以看出

(13)

注意,由于(10)中的高维积分和条件密度中的归一化常数,直接求解等式(12)是困难和不可能的; 为了克服障碍,采用Gu等人的三阶段MCMC-SA算法 (2005)利用Gibbs抽样程序对附录A中的权利审查数据进行了解,以求解等式(12)。

2.2选择结

对于固定数量的结,比如K,我们选择等间距的采样分位数作为结。 然而,如果功能有不连续性,需要在其附近放一个结。 如果边界上没有足够的数据,应该在边界上加上更多的结,以避免奇点。 对于单调或单峰平滑函数,少于五个内结似乎谁应该的。在我们的实施中,我们在大范围内改变结的数量,然后选择最小化AIC或BIC的结果,给出:

(14)

其中d=k 4和可以由LAM和LENUG针对比例赔率模型考虑的蒙特卡罗数值算法近似得到。

表示为Tn的不完整等级,其中如果在对于中被截断,那么可以很容易地获得:

(15)

其中:我们将(15)中的被积函数乘 (16) 然后除于

其中,其中是间隔中的检查观察次数并且是在之前的风险受试者的数量.显然,是与一致的n个生存时间中可能排名的总数,(16)是进化型II检查下的的密度函数.那么可以表示为:

(17)

其中期望值对应于密度(16)并且:

因此,可以近似为:

(18)

其中,其中是来自均匀分布的渐进型II检查的大小为n的随机样本的标识次序统计的M个独立实现。

三.数值研究

在本节中,使用一些模拟研究和VA数据集应用来说明我们提出的方法。

3.1模拟研究

在模拟研究中,估计器由定义的均方根误差(RMSE)评估,其中规则网格点. 可以通过序列估计。节数由AIC和BIC标准选择。在我们的模拟中,我们发现估计过程对结数不是非常敏感。 所以我们决定在模拟研究中选择四节B样条逼近法。

我们考虑以下一般部分线性变系数变换模型:

(19)

其中:和分别作为标准极值分布函数和标准正态分布函数,其结果对应于比例风险模型(PH)和多项式(MP)模型。

(19)中的参数设置如下:,而协变量是从以下分布独立生成的:所有基线累积分布函数取为。对于每个模型,我们考虑三个审查案例,第一个案例:没有删失,第二个案例:15%删失率,第三个案例:27%删失率。对于这两种模型,审查变量C遵循形式的指数分布,就危害函数而言,(19) 其中,b被适当选择,使检查率分别为0%,15%和27%。我们生成150个数据集,每个删失案例和每个模型都有100个观察结果。

在模拟中,使用三次B样条多项式近似平滑函数。我们运行的三阶段MCMC-SA算法。的初始值由生成,被选为零矩阵,这些从U(0,1)生成,然后对其进行排序,使其与生存次数一致。图(a) —(d) 图1显示了的典型拟合曲线以及相应的95%置信区间(CI),检测率为15%,检测率为16%的MP模型。这些典型的样品被选择为使其RMSE等于100次重复中的中值。 表1给出了三种检测情况下PH模型和MP模型的参数估计结果的总结,包括估计平均值(平均值),样本标准偏差(SStd),Gu等第三阶段的估计标准偏差(Std)值。 (2005)和95%的覆盖概率(Cp)。 表2列出了每个模型和每个检查情况下RMSE的样本均值(平均值)和样本标准偏差(Std)。

从图。 1,我们可以看出,的拟合曲线非常接近每个模型的真实线。 注意,图(a) - (d)

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[26422],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

企业微信

Copyright © 2010-2022 毕业论文网 站点地图