调教漫画
av网 你的位置:调教漫画 > av网 > 快播成人电影 BMJ:临床预计模子样本量贪图

快播成人电影 BMJ:临床预计模子样本量贪图

发布日期:2025-03-18 04:03    点击次数:52

快播成人电影 BMJ:临床预计模子样本量贪图

💡专注R讲话在🩺生物医学中的使用快播成人电影

设为“星标”,精彩可以过

BMJ在2020年发表了一篇对于预计模子样本量贪图的著述(10.1136/bmj.m441,这篇著述是免费下载的,铭刻把补充文献也下载下来),算是当今样本量贪图的指南性文献。

况兼作家还提供了一个R包(pmsampsize)用于贪图样本量,使用起来也相等便捷,有点雷同于pwr包贪图样本量

图片

然而要注重该文献的样本量贪图是针对开拓临床预计模子需要的样本量,也即是检修集的样本量,不是外部考证集的样本量。要是是考证集的样本量,作家特别又写了3篇著述,鉴别针对归来、二分类、糊口数据:

Riley R D, Collins G S, Ensor J, et al. Minimum sample size calculations for external validation of a clinical prediction model with a time-to-event outcome[J]. Statistics in Medicine, 2022, 41(7): 1280–1295. DOI:10.1002/sim.9275.Riley R D, Debray T P A, Collins G S, et al. Minimum sample size for external validation of a clinical prediction model with a binary outcome[J]. Statistics in Medicine, 2021, 40(19): 4230–4251. DOI:10.1002/sim.9025.Archer L, Snell K I E, Ensor J, et al. Minimum sample size for external validation of a clinical prediction model with a continuous outcome[J]. Statistics in Medicine, 2021, 40(1): 133–146. DOI:10.1002/sim.8766.

另外,该文献的样本量贪图方法是针对3大归来模子的:线性归来、逻辑归来、cox归来。要是是一些机器学习方法(比如当场丛林、守旧向量机等)则需要更多的样本。

经典方法

Harrell老爷子在他的书《Regression Modeling Strategies》中先容的开拓模子的样本量贪图方法是:

在开拓数据集(也即是检修集)中,聚拢型恶果的灵验样本量由征询参与者的总和决定(有若干用若干)。对于二分类恶果,灵验样本量频频被以为大致等于事件(有恶果的事件)和非事件(莫得恶果的事件)的最小值; time-to-event数据中,样本量可以低能等于阳性事件的数目。

图片

在为二分类或time-to-event数据开拓预计模子时,所需要的样本量常用的贪图方法是10EPV法,即阳性事件的数目至少是预计变量个数的10倍(10 events per variable,10EPV)。

然而“variable”一词具有误导性,因为在模子中一个预计变量可能有多个β(即归来整个),举例,具有三个类别的分类型预计变量就会有两个β(举例肿瘤等第1、2、3,那么就会有β(2和1比)、β(3和1比),因为分类变量在归来分析中需要进行哑变量编码)。还有即是在建模历程中使用了多项式调遣和样条变换等也会使得吞并个变量有多个β,要是变量之间有交互项也会产生雷同的恶果。

由于预计模子的参数(也即是归来整个β)频频多于本色的预计变量个数,是以最佳使用10EPP(10 events per candidate predictor parameter)法,即阳性事件的数目至少是“候选预计变量的参数”的10倍。“候选”一词很焦灼,因为模子过拟合的进度与预计变量参数的数目联系,而不是最终模子方程中的参数数目。

然而10EPP原则当今也有一些争议,也有大佬漠视5EPP或者15、20、50EPP。这些数目的使用皆是和具体的情况联系的,也没个金设施,不仅取决于相对于候选预计变量参数数目的事件数目,还取决于参与者总和、征询东谈主群中的恶果比例(发生率)以及模子的预期预计性能等。

4步法

Van Smeden等和Riley等东谈主最近的责任描写了若何贪图预计模子开拓所需的样本量,使用条目是用户指定标的东谈主群中的总体恶果风险或平均恶果值、候选预计变量参数的数目以及总体模子拟合方面的预期模子性能。具体施行起来总结为4个方法:

第一步是笃定需要若干样本人手准确算计平均风险(也即是平均概率,对应二分类或者糊口数据)或者平均值(对应聚拢型数据);第二步是笃定需要若干样本人手让模子的预计值和信得过值之间的罪戾更小;第三步是笃定有饱胀的的样本量以防卫过拟合;第四步是笃定有饱胀的的样本量使模子的名义性能和信得过性能的罪戾更小。第一步

样本大小必须让预计模子的截距能被精准算计,以确保开拓的模子可以准确预计平均恶果值(对应聚拢型数据)或总体恶果比例(对应二分类或者糊口数据)。一个浅薄的方法是贪图:大略准确算计“莫得预计变量的空模子(null model)的截距”所需要的样本量。

这里波及一个浅薄的数学常识,即是线性模子的截距响应了模子预计的平均值。

这个“准确算计”一般要求罪戾在0.05以内,也即是说预计值最佳不要跨越均值的95%实在区间。

下图是贪图公式和一个例子。假如一个二分类数据,它的阳性事件比例是0.5,为了甩掉罪戾在0.05以内,把柄以下公式贪图,需要的样本量最少是385个。

图片

第二步

预计值和信得过值之间的罪戾可以用许多标的估量,比如平均全皆百分比罪戾(Mean Absolute Percentage Error MAPE),这个标的其实是估量归来模子的常用标的,对于二分类数据要是使用的是概率的话也能用这个标的估量。

底下是贪图公式和一个例子。假如一个二分类数据,它的阳性事件比例是0.3,预计变量有10个,为了甩掉罪戾(MAPE)在0.05以内,把柄以下公式贪图,需要的样本量最少是461个。

图片

第三步

样本量越少且预计变量数目越多,则越容易过拟合,因此需要饱胀的样本量防卫过拟合。

建模历程中频频会使用舒缓法(Shrinkage,或者被称为刑事株连(penalisation)或正则化(regularisation))来镌汰过拟合的风险。Riley等东谈主漠视使用一个较小的舒缓值(≤10%),并贪图此时所需要的样本量。况兼还需要指定候选预计变量参数的个数以及一个模子性能标的,比如Cox-Snell R2(记为CS-R方,属于伪R方的一种)。CS-R方可以反应信噪比(signal:noise),从而反应模子是否过拟合。

就去吻

对于聚拢型数据来说,CS-R方即是决定整个,反应模子所能讲授的方差(或者叫变异)百分比,范围是0到1之间,越接近1越好,阐扬模子大略准确识别数据里面的情势,不会被噪声(罪戾)搅扰,要是CS-R方接近0则阐扬模子很有可能过拟合。

对于二分类数据和糊口数据来说,CS-R方的范围是0到max(CS-R方)。对于逻辑归来模子来说,要是阳性事件发生率为0.5,0.4,0.3,0.2,0.1,0.05,0.01,那么对应的max(CS-R方)鉴别是0.75,0.74,0.71,0.63,0.48,0.33,0.11。是以即使模子的预期性能相等好,这个CS-R方的值也一般会选拔比拟小的值。

以下是二分类和糊口数据的样本量贪图公式和一个示例。对于一个逻辑归来模子,要是有20个候选预计变量参数(EPP),CS-R方选拔0.1,那么为了使舒缓值保抓在10%,最少的样本量是1698。

图片

Cox-Snell R2(也即是CS-R方)的选拔有多种方法,以下是作家比拟推选的几种:

成功使用别东谈主文献里报谈的值使用其他标的近似,比如使用C指数、AUC值、其他伪R方等把柄max(CS-R方)贪图

图片

本文献的附件5提供了精细的公式用于贪图max(CS-R方),感趣味趣味的我方检讨一下吧。

第四步

应该有饱胀多的样本量保证模子的名义标的和信得过标的之间的互异饱胀小。

名义标的(apparent values),假如咱们用检修集开拓了一个模子,然后让这个模子对检修集进行预计,这么得到的标的即是名义标的,这种贪图模子标的的方法叫作念重代入法(resubstitution)。信得过标的是指模子在其他数据中(即是模子开拓时没用过的数据)得到的更信得过、更接近模子信得过性能的标的。

本篇文献中袭取的标的是另外一种调整的R方,即:Nagelkerke-R方(亦然伪R方的一种),Nagelkerke-R方=CS-R方/max(CS-R方)。

底下是二分类和糊口数据的样本量贪图公式。对于一个逻辑归来模子,假定阳性事件的比例是0.05(此时对应的max(CS-R方)是0.33),指定CS-R方为0.2,那么为了使信得过的Nagelkerke-R方和名义Nagelkerke-R方的互异保抓在0.05,至少需要的样本量是1079。

图片

总结

底下是一个总结,对于聚拢型数据,推选使用4步法(C1-C4),对于二分类数据推选使用4步法(B1-B4),对于糊口数据推选使用3步法(T1-T4)。

图片

除此以外作家特别写了一个R包用于贪图临床预计模子的样本量:pmsampsize,这个R包可以贪图以上每一个方法(除了B2这个方法不行,这一步是通过网页贪图的,网址是:https://mvansmeden.shinyapps.io/BeyondEPV/)所需要的样本量,并选拔最大的一个手脚开拓模子所需要的最少样本量。

R包使用方法

底下用3个实例演示这个R包的使用方法。

library(pmsampsize)
二分类数据

假如咱们要把柄妊娠15周时测定的多样标的预计妊妇发生子痫前期的风险,这是一个二分类数据,恶果变量是发生子痫/不发生子痫。

假定该数据中,发生子痫的比例是0.05(阳性事件的比例),候选预计变量的参数数目是30(EPP是30),max(CS-R方)是0.33。要是咱们预期模子大略讲授15%的变异,把柄第3步中先容的CS-R方的贪图方法,可以得到CS-R方=0.15*0.33=0.05。

有了这几个数据,就可以贪图样本量了:

pmsampsize(  type = "b",         # 二分类数据  csrsquared = 0.05,  # CS-R方  parameters = 30,    # EPP的数目  prevalence = 0.05,  # 阳性事件发生率  seed = 123          # 建造当场数种子)    NB: Assuming 0.05 acceptable difference in apparent & adjusted R-squared     NB: Assuming 0.05 margin of error in estimation of intercept     NB: Events per Predictor Parameter (EPP) assumes prevalence = 0.05                      Samp_size Shrinkage Parameter CS_Rsq Max_Rsq Nag_Rsq  EPP    Criteria 1      5249     0.900        30   0.05   0.328   0.153 8.75    Criteria 2      1770     0.753        30   0.05   0.328   0.153 2.95    Criteria 3        73     0.900        30   0.05   0.328   0.153 0.12    Final           5249     0.900        30   0.05   0.328   0.153 8.75          Minimum sample size required for new model development based on user inputs = 5249,      with 263 events (assuming an outcome prevalence = 0.05) and an EPP = 8.75 

对于二分类数据,使用4步法贪图样本量,其中B2这一步不行通过这个包贪图,是以这个包给出了其他3个方法所需要的样本量,B2这个方法算出来是需要544例,因为要同期得志4个方法的要求,是以最终需要的样本量是5249例。

糊口数据

假如咱们要预计调理住手一段时分后,静脉血栓栓塞复发的风险。这是一个time-to-event类型的数据,结局是复发/不复发,时分即是调理住手后的时长。

假定该数据中,C指数是0.69,CS-R方是0.051,EPP=30,平均随访时分是2.07年,阳性事件发生比例是0.065,需要进行预计的时分点选拔2年,那么样本量贪图如下:

pmsampsize(  type = "s",         # 糊口数据  csrsquared = 0.051, # CS-R方  parameters = 30,    # EPP的数目  rate = 0.065,       # 阳性事件发生率  timepoint = 2,      # 指定要预计的时分点  meanfup = 2.07      # 平均随访时分)    NB: Assuming 0.05 acceptable difference in apparent & adjusted R-squared     NB: Assuming 0.05 margin of error in estimation of overall risk at time point = 2      NB: Events per Predictor Parameter (EPP) assumes overall event rate = 0.065                        Samp_size Shrinkage Parameter CS_Rsq Max_Rsq Nag_Rsq   EPP    Criteria 1        5143     0.900        30  0.051   0.555   0.092 23.07    Criteria 2        1039     0.648        30  0.051   0.555   0.092  4.66    Criteria 3 *      5143     0.900        30  0.051   0.555   0.092 23.07    Final SS          5143     0.900        30  0.051   0.555   0.092 23.07          Minimum sample size required for new model development based on user inputs = 5143,      corresponding to 10646 person-time** of follow-up, with 692 outcome events      assuming an overall event rate = 0.065 and therefore an EPP = 23.07            * 95% CI for overall risk = (0.113, 0.13), for true value of 0.122 and sample size n = 5143      **where time is in the units mean follow-up time was specified in

糊口数据的样本量贪图顺从4步法,是以恶果中给出了4个方法每一方法所需要的样本量,最终需要的样本量是5143例。

聚拢型数据

假如咱们要预计青少年的无脂肪体重,该任务很昭着是一个归来任务,恶果变量是数值型的。

假定该数据中,CS-R方为0.9,EPP=20,总体的平均无脂肪体重是26.7kg(截距的值),总体的无脂肪体重的设施差是8.7kg,那么贪图样本量的代码为:

pmsampsize(  type = "c",       # 聚拢型数据  rsquared = 0.9,   # 聚拢型数据的CS-R方=R方  parameters = 20,  # EPP的数目  intercept = 26.7, # 截距,也即是均值  sd = 8.7          # 总体的设施差)    NB: Assuming 0.05 acceptable difference in apparent & adjusted R-squared     NB: Assuming MMOE <= 1.1 in estimation of intercept & residual standard deviation     SPP - Subjects per Predictor Parameter                      Samp_size Shrinkage Parameter Rsq   SPP    Criteria 1         68     0.900        20 0.9  3.40    Criteria 2         41     0.853        20 0.9  2.05    Criteria 3        254     0.970        20 0.9 12.70    Criteria 4*       254     0.970        20 0.9 12.70    Final             254     0.970        20 0.9 12.70          Minimum sample size required for new model development based on user inputs = 254            * 95% CI for intercept = (26.36, 27.04), for sample size n = 254

聚拢型数据的样本量贪图也顺从4步法,最终所需要的样本量是254。

有计划咱们快播成人电影,原谅咱们

免费QQ疏导群1:613637742免费QQ疏导群2:608720452公众号音尘界濒临于作家取得有计划神色知乎、CSDN、简书同名账号哔哩哔哩:阿越即是我 本站仅提供存储工作,整个内容均由用户发布,如发现存害或侵权内容,请点击举报。

Powered by 调教漫画 @2013-2022 RSS地图 HTML地图

Copyright Powered by站群系统 © 2013-2024