Logistic回归分析中对每个变量事件数的模拟研究外文翻译资料

2022-11-19 14:18:52

英语原文共 7 页，剩余内容已隐藏，支付完成后下载完整资料

Logistic回归分析中对每个变量事件数的模拟研究

摘要

本文主要进行了蒙特卡罗研究，以评估在Logistic回归分析中分析的每个变量（EPV）事件数的影响。这些模拟是基于673名患者的心脏试验数据，其中252人死亡，且有7个变量是死亡率的有力预测因子；为了样本完整性，每个预测变量的事件数是（252/7=）36。对于模拟，在EPV=2、5、10、15、20和25的值中，我们随机生成了673名患者的500个样本，根据从完整样本中提取的逻辑模型，选择了替换。对每组500个样本中每个变量的回归系数进行了模拟，并对原样本匹配的模型结果进行了偏差、精度和意义测试。

对于10或更大的EPV值，没有出现重大问题。然而，对于小于10的EPV值，回归系数在正方向和负方向上都有偏差；Logistic模型的大样本方差估计高估和低估了回归系数的样本方差；对估计值的90%的置信区间没有适当的覆盖；在零假设下，Wald统计数据是保守的；而矛盾的联系（在错误的方向上的意义）增加了。尽管其他因素（如事件总数或样本大小）可能影响逻辑模型的有效性，但我们的发现表明，低EPV是导致问题出现的主要因素。

关键词：Logistic，蒙特卡罗，偏差

引言

如果模型中分析的独立变量的数量太少，那么多变量的分析方法得到的结果是不准确的。主要的问题是回归系数的准确性以及潜在的误导联想[1]。这里有三种类型的错误：当变量数量太多时，其中一些可能是“噪声”，却在最终模型中被保留，这是过度拟合（类型I错误）；如果最终模型中省略了重要的变量，就会出现不适当拟合（类型II错误）；若给特定的因素有一个不正确的关联方向时，就会产生矛盾拟合（类型III错误），这与真实结果相悖。

基于上述问题，学者们提出了在多元分析中关于变量（EPV）的最小事件数的一般指导原则。在理论基础上，Harrel和他的同事们[2]提出了至少10到20个EPV的标准。在对前步多线性回归的模拟研究中，Freedman和Pee[3]证明了当变量与观测值的比值大于0.25时，类型I错误的误差被夸大了，此时对应于EPV 的值小于4。在模拟研究[4,5]中，为了保证模型的有效性，每个变量至少有10个事件是可取的。

由于EPV的影响对所有的多变量方法都不一样，我们在Logistic回归分析中进行了蒙特卡罗研究。对于Logistic模型来说，结果事件的数量是比二进制结果的数量少（例如，活着的和死亡的）。因此，一项特定的研究可能有许多主题，但对于有效的分析来说，死亡的人数太少也是不行的。为了研究这个问题，我们用心脏试验的数据进行了模拟，在673名患者中有252例死亡（事件）。我们选择了7个已知的预后变量进行分析，得到了完整样本的EPV （252/7=）36。对选定的值进行了模拟,EPV的范围从2到25。我们将结果与模型进行了比较，发现其适用于原始样品，以检验回归系数的偏差、精度和意义测试。

一、研究方法

1.1设计仿真研究

本文采用替换采样，在EPV =2、5、10、15、20和25中分别进行了500次模拟。根据预测的死亡概率（）或生存概率（），由Logistic模型对死亡者和幸存者进行抽样，其中；是截距；是病人的共变量值集；而是由EPV =36的完整样本所估计的回归系数的相应值的集合。我们想要绘制样本，在这个样本中，与协变量的关联被指定，而事件的数量在模拟中是固定的。这个目标是通过选择病人，有概率，如果我们选择一个死亡，那么生存者概率为。

选择死亡的算法是基于累积死亡和生存的选择概率，分别为和；一组均匀随机生成的数字，=，在0和1之间，其中j=7 EPV。如果，那么病人（1到673）为死亡。死亡的选择仍在继续替换，直到获得所需的7times; EPV死亡人数。例如，2 EPV需要7 times;2=14的死亡。（673-7times; EPV）生存者的选择采用了类似的方式，使用累积的生存分数，，以及一组生成的（673-7 EPV）一致随机数字。因此，对于每一个EPV模拟，在一个样本中，相同的主题可以被多次选择作为一个死亡或一个生存。在模拟中，死亡和生存者的分配与每个主题的实际结果无关；也就是说，一个在研究中死亡的人可以被选为生存者，反之亦然。

在EPV的每一个值中，选择死亡和生存者的过程重复了500次，产生了673名患者的500个样本。对于每个样本，都利用Logistic回归模型，将产生的系数和它们的方差保存在一个数据集中，以供以后描述的分析。在使用IBM RISC计算机的SAS中，模拟得到了完美的结果。最大似然估计收敛于。未获得收敛的模拟被排除在外，没有被取代。

我们引用的（回顾性）抽样方法是用来改变EPV的，同时保留回归参数不变。这种策略可以通过使用对数线性模型和多项抽样来证明。通过对死亡的条件作用，患者的分数代表了观察共变量模式的概率，或，以及通过对生存者的条件作用我们获得。死亡与生存者分数的比率与经验值成正比（），它是一个对数线性模型，其中。如果我们应用贝叶斯定理，我们就得到了基于共变量模式的死亡概率（在未来的抽样中）：

其中

以类似的方式，我们可以证明 (生存|),是等于，并且与Logistic模型一致。因此，通过对结果（死亡或生存）的条件作用，对进行回顾性的抽样，根据共变量模式，对的估计是相同的[6,7]。

回顾性抽样给出了EPV相关的回归系数的估计分布，而预期的抽样则考虑了与预期EPV相关的估计。我们的目标是检查Logistic模型对每个变量所观察到的事件数量的行为，我们对比例危险模型[4,5]的调查使用的相同策略，使用前瞻性抽样的模拟结果与本文所报告的回顾性取样的结果几乎相同。

1.2统计数据分析

在本节我们对2、5、10、15、20和25的EPV的值的模拟结果进行了评估，相对于与EPV=36的原始（完整）样本相适应的模型，使用了先前描述的精度、精度和意义测试[4]。我们还研究了回归系数的分布，并使用柯尔莫戈洛夫 D统计数据[8]进行了正常的测试。所有的统计数据都是基于获得Logistic回归模型的收敛性来计算的。模型中没有收敛的样本被排除在分析之外。尽管这些示例提供了关于参数估计的一些信息（例如上或下界），它们没有提供对协变的影响的有用估计。

我们通过计算对回归系数 =1,hellip;,7的平均相对偏差来评估系数的准确性。且每一个 =1,hellip;,的模拟都能被覆盖到，如，其中是从完整的样本中得到的系数的“真”值。另一种衡量准确性的方法是模拟的比例超过了100%。

通过计算和比较每个回归系数的“样本”和“模型”方差，确定了系数的精度。样本方差以通常的方式计算，如模型方差是由所有模型中每个系数的平均方差的平均值决定的，也就是。模型与样本方差之比用于评估模型的大样本性质；它们的比率如果不相同，表示这些属性可能不成立。

通过研究我们对回归系数的统计意义进行了四种评价。首先，对90%置信区间的覆盖率是由模拟的比例决定的，在这些模拟中，估计系数的90%置信区间包含了真实值。其次，功率是根据模拟的比例来计算的，在这个模拟中，系数除以标准误差（Z-统计量）超过了正常的偏离。第三，在模拟中，Z-统计量小于-1.28的模拟的比例将表明在错误的方向上有观察的机会，被描述为“矛盾拟合”[4]或III类型错误[9]。第四，为了评估Z-统计量的有效性，我们在零假设下进行了模拟，通过将所有回归系数变为零（），并使用上面描述的相同的模拟策略，对Z-统计量的分布进行检查，并对I型错误进行评估。

二、研究数据

我们的模拟使用了退伍军人事务部的冠状动脉外科手术的数据[10]。在这项研究中，有686名患者在1972年至1974年期间注册了稳定的心绞痛和血管造影证实的冠状动脉疾病，此后至少随访10年。我们选择了7个已知的生存预测(每个变量为二元(双向)p值lt; 0.10)作为模拟对象:在静息基线ECG上的ST抑郁（STD），高血压史(HTN),纽约心脏协会功能类III或IV和I或II(NYHA),充血性心力衰竭(CHF)史,糖尿病(DM) 史,显著的冠状动脉病变(类型),和左心室收缩异常(LVC)。在目前的分析中，所有的变量都被编码为1，这表示因子的存在，而0表示没有因子。除了患病血管的数量，编码0为1-血管疾病，1为2-血管疾病，以及2为3-血管疾病。在673名患者中，有673名患者获得了完整的7个变量的数据，其中252人在随访的前10年中死亡，为完整样本提供了(252/7=)36的EPV。表1总结了应用于完整样本的多元Logistic回归模型的结果。

表1.原始完整组基线风险因素的汇总统计

因素	多变量逻辑回归估计
因素	患病率	系数	标准误	Wald p值	优势比
截距		-1.86	0.24	lt;0.01
ST抑郁（STD）	0.25	0.46	0.19	0.02	1.59
高血压史(HTN)	0.29	0.52	0.19	lt;0.1	1.67
纽约心脏协会功能类III或IV和I或II(NYHA)	0.59	0.28	0.17	0.11	1.32
充血性心力衰竭(CHF)	0.07	0.51	0.33	0.12	1.67
糖尿病(DM)	0.13	0.56	0.25	0.02	1.75
显著的冠状动脉病变(类型)
1	0.14	0.33	0.12	lt;0.01	1.39
2	0.32
3	0.54
左心室收缩异常(LVC)	0.50	0.61	0.17	lt;0.01	1.85
全球估计自由度为7的卡方为56.7，plt;0.01

三、实验结果

尽管所有500个样本模型都聚集在EPV10和497模型中，但只有377（77%）的模型聚集在EPV=2中。因此，在低EPV的情况下，物流模型并不总是达到收敛性。图1显示了EPV对变量CHF回归系数值的频率分布的影响。随着EPV的减少，分布变得更加分散和“平”，特别是对于EPVlt;10。例如，在25 EPV中，回归系数的最小值和最大值是-0.67和1.71，而在2 EPV中，则是-0.85和2.75。因此，在低EPV中，对实际回归系数值的估计不准确。其他6个变量（未显示的数据）也观察到类似的模式。

通过Kolmogorov D统计数据（未显示的数据），我们对回归系数分布的正态进行了测试。偏离正常（plt;0.05）的情况即在两个方向上都有“扁平化”的分布和长“尾”，随着EPV的减少，这一现象更加普遍。“不正常”分布的频率是在2 EPV中的7，5 EPV中的3，10 EPV中的2，15 EPV，20 EPV中的1，和25 EPV中的0。

再看系数的相对偏差，如图2所示，是随着EPV的减少而增加的。平均偏差在内部，EPV的10%的真实值。然而，在2 EPV中，偏差显著增加，因此，对于CHF来说，回归系数被高估了30%，而对于VES来说，高估了40%。这个问题在图3中得到了进一步的描述，它显示了模拟的比例，其中绝对错误超过了百分之百。这一比例大大低于10 EPV。在25 EPV中NYH

剩余内容已隐藏，支付完成后下载完整资料

资料编号：[23752]，资料为PDF文档或Word文档，PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容！立即支付

注册

找回密码