我正在编写一些函数以从生存分析的结果中提取信息,并且在我提取下限和上限生存时间(如95%置信区间所指定)与从包装本身作为摘要。

我在R(v 3.1.2)中使用survival包(v 2.37-7)。

所以我的问题是,有时我提取的95%CI的下边界和/或上边界的中值生存时间与我仅评估survfit的结果时返回的结果不匹配。当我检查数据时,我相信survfit的结果是错误的,它似乎正在返回boundary + 1值(有时也是)。以下是一些说明问题的数据。

# Fit my data stratified by gender of subject
survFit30Sex <- survfit(Surv(thirtyDaySuicides$daysFromInvestigation) ~ thirtyDaySuicides$Sex)

# Display median survival and confidence interval
survFit30Sex


Call: survfit(formula = Surv(thirtyDaySuicides$daysFromInvestigation) ~
thirtyDaySuicides$Sex)

                    records n.max n.start events median 0.95LCL 0.95UCL
thirtyDaySuicides$Sex=1      35    35      35     35     15       9      20
thirtyDaySuicides$Sex=2      93    93      93     93      9       6      13


survfit确定Sex = 1的下限和上限分别为9天和20天,但是当我检查数据时,似乎上限应为19,而不是20

这是实际数据;我只显示Sex=1,因为这就是差异所在,
我也已在关键区域前后切出了一些值,以使数据更易于阅读

Call: survfit(formula = Surv(thirtyDaySuicides$daysFromInvestigation) ~
    thirtyDaySuicides$Sex)

summary( thirtyDaySuicides$Sex=1 )
     time n.risk n.event survival std.err lower 95% CI upper 95% CI
    9     24       2   0.6286  0.0817      0.48725        0.811
   10     22       1   0.6000  0.0828      0.45780        0.786
   11     21       1   0.5714  0.0836      0.42890        0.761
   13     20       1   0.5429  0.0842      0.40055        0.736
   14     19       1   0.5143  0.0845      0.37272        0.710
   15     18       1   0.4857  0.0845      0.34541        0.683
   16     17       1   0.4571  0.0842      0.31861        0.656
   17     16       3   0.3714  0.0817      0.24138        0.572
   19     13       1   0.3429  0.0802      0.21673        0.542
   20     12       2   0.2857  0.0764      0.16921        0.482
   21     10       2   0.2286  0.0710      0.12437        0.420
   22      8       1   0.2000  0.0676      0.10310        0.388


据我了解,中位生存时间的较低95%CI为0.34541。在生存时间列中向下搜索,直到找到小于0.34541的值,这与生存时间19(survival = 0.3429)相关联。这不是上限吗?为什么survfit返回最高生存时间20?我已经使该算法自动化,并且大多数时候我都匹配survfit的输出,但并非总是如此。

这使我认为survival软件包中有一些奇怪的错误(我对此表示怀疑),或者我没有正确地找到边界(很有可能)。

---------更新

不幸的是,我不知道如何将数据文件链接到我的问题,但是数据非常短,因此可以将其放在此处。请注意,为简化起见,我消除了按性别划分的分层,因此,这只是女性的数据,这是我得到差异的地方。

在我看来,我的处理方法不正确,也许是从标准误差计算出95%的置信区间,而不是按照我的思考方式进行查找。但是即使有了这个主意,我也遇到了类似的问题。问题是更普遍的是,如何从生存对象中抽出第X个百分位数的生存时间及其以时间单位对应的95%CI?

这是通过dput生成的生存输入数据,然后是其下的非结构化副本。

structure(list(daysFromInvestigation = c(27L, 27L, 10L, 20L,
15L, 21L, 27L, 1L, 9L, 22L, 29L, 14L, 4L, 19L, 7L, 3L, 2L, 7L,
21L, 4L, 17L, 20L, 16L, 2L, 9L, 7L, 17L, 2L, 17L, 26L, 25L, 11L,
3L, 13L, 27L), censored = c(1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
1, 1, 1)), class = "data.frame", row.names = c(NA, -35L), .Names = c("daysFromInvestigation",
"censored"))

       daysFromInvestigation censored
1                     27        1
2                     27        1
3                     10        1
4                     20        1
5                     15        1
6                     21        1
7                     27        1
8                      1        1
9                      9        1
10                    22        1
11                    29        1
12                    14        1
13                     4        1
14                    19        1
15                     7        1
16                     3        1
17                     2        1
18                     7        1
19                    21        1
20                     4        1
21                    17        1
22                    20        1
23                    16        1
24                     2        1
25                     9        1
26                     7        1
27                    17        1
28                     2        1
29                    17        1
30                    26        1
31                    25        1
32                    11        1
33                     3        1
34                    13        1
35                    27        1

最佳答案

我对自己的问题有一个答案,如果不是最佳答案,至少可以得到一个近似的答案。

我遇到的主要问题是无法使用加权平均值。在我的问题中,我对中位生存时间感兴趣,因此生存= 0.5。但是我的数据没有在精确的中位数时间产生事件,因此我的生存概率为14天= 0.5143,而15天= 0.4857,其加权平均值四舍五入为15天。

第二个问题是误解了如何使用置信区间。为了匹配生存程序包报告的内容,找到中值生存间隔的下限,搜索下界向量以找到刚好小于中值的第一个值,然后为该值计算时间的加权平均值低于中位数而刚好高于。同样,对于上限,搜索上限向量以找到目标区间,然后计算加权平均值。在我的示例中,中位生存的上限发生在19天到20天之间。加权平均四舍五入到20天。

我没有深入研究生存代码来确认这是如何正确完成的,但是在我的情况下,我有大约50种特定的生存拟合组合,分别针对不同的时间段和不同的主持人,并且我匹配了中位数输出由生存包提供100%。

希望本摘要对任何遇到相同问题的人有所帮助,如果有人想帮助纠正/完善我的理解,我们将非常欢迎。

10-08 18:40