我有来自 2 个独立评分者的一系列评分(至少有 12 个级别的分类)。我想计算评分者间的可靠性,但允许存在一个级别的差异。 IE。级别 1 和级别 2 将被视为一致,但级别 1 和级别 3 不会。我不想使用像相关系数这样的度量,因为知道评分是否在 1 个差异水平内很重要。这能做到吗?
编辑以包含样本数据:每个单元格代表分配 A-E 评级的评级者数量(最大 = 2)structure(list(A = c(2, 2, 0, 0, 0,0,0,0,0), B = c(0,0,0,0,1,0,1,0,2), C = c(0,0,0,0,1,0,0,2,0), D=c(0,0,2,0,0,2,1,0,0), E=c(0,0,0,2,0,0,0,0,0)),row.names = c(NA,9L), class = "data.frame")
最佳答案
好的,我不确定这是否适合您,但我认为它会达到目标。基本上,您需要在不同的协议(protocol)标准下找到评估者之间的协议(protocol)。这真的不是什么大不了的事。基本上,就 Cohen 的 kappa 而言,评分者要么同意,要么不同意。
首先制作您的示例数据:
testdata <- structure(list(A=c(2,2,0,0,0,0,0,0,0),
B=c(0,0,0,0,1,0,1,0,2),
C=c(0,0,0,0,1,0,0,2,0),
D=c(0,0,2,0,0,2,1,0,0),
E=c(0,0,0,2,0,0,0,0,0)),
row.names = c(NA,9L),
class = "data.frame")
对于 kappa 的计算,我们将使用
irr
包:library(irr)
kappa2
中的 irr
函数接受一个 2*n 的数据帧或矩阵,并返回计算结果。您的数据采用不同的格式,因此我们需要将其转换为 kappa2
可以处理的内容。如果你已经有了这种格式,那会容易得多。首先,我首先创建一个新的数据框来接收重组的结果。
new_testdata <- data.frame(R1="",R2="",stringsAsFactors=FALSE)
现在,一个简单的循环遍历每一行并返回一个向量,其中包含每个评分者的评分。显然,这不是分配的实际评级;这里的代码只是假设第一位评分者的评分总是高于第二位评分者。在这种特殊情况下无关紧要,因为我们只关心协议(protocol),但我确实希望您拥有完整的数据。
for(x in 1:dim(testdata)[1]) {
new_testdata <- rbind(new_testdata,rep(names(testdata),testdata[x,]))
}
rm(x)
new_testdata <- new_testdata[-1,] # Drop first, empty column
现在,我们可以获得常规的 kappa。
kappa2(ratings=new_testdata)
Cohen's Kappa for 2 Raters (Weights: unweighted)
Subjects = 9
Raters = 2
Kappa = 0.723
z = 4.56
p-value = 5.23e-06
现在,您想要一个不同的 kappa,其中一个级别的分歧不会被计为问题。那没问题;基本上,您需要做的是将
new_testdata
中的内容转换为同意或不同意的二进制表示。在这种情况下,它不应该影响 kappa。 (但是,如果您的评估者只有两个级别可供选择,则会影响 kappa;这将人为地限制该值)。首先,让我们创建一个将字母转换为数字的表格。这将使我们的生活更轻松。
convtable <- data.frame(old=c("A","B","C","D","E"),
new=c(1,2,3,4,5),
stringsAsFactors=FALSE)
现在,我们可以使用它将 new_testdata 中的值转换为数字表示。
new_testdata$R1 <- convtable$new[match(new_testdata$R1,convtable$old)]
new_testdata$R2 <- convtable$new[match(new_testdata$R2,convtable$old)]
我们只需计算两列之间的差异即可轻松检查是否一致。
new_testdata$diff <- abs(new_testdata$R1-new_testdata$R2)
然后,只需将 R1 和 R2 重新编码为 1 和 1,表示满足您的一致性标准(小于或等于两个评级之间的一个级别差异),否则为 1 和 0(或 0 和 1)。
new_testdata[new_testdata$diff<=1,c("R1","R2")] <- c(1,1)
new_testdata[new_testdata$diff>1,c("R1","R2")] <- c(1,0)
new_testdata <- new_testdata[1:2] # Drop the difference variable
现在,只需再次运行您的 kappa。
kappa2(ratings=new_testdata)
Cohen's Kappa for 2 Raters (Weights: unweighted)
Subjects = 9
Raters = 2
Kappa = 0
z = NaN
p-value = NaN
哇,怎么了?嗯,您给我的数据在使用一致性为 +/- 1 级别时基本上是完全一致的。有一些 methodological issues that can occur when 对二进制响应变量执行 kappa,如我链接的 CrossValidated 帖子所示。如果您的数据不如样本数据“均匀”,您应该得到一个真正的 kappa 值,而不是像那个值那样的异常零。但是,这更多是一个方法问题,您可能需要在 CrossValidated 上进行跟进。
关于r - 使用 R 计算 Cohen's Kappa 的分类评级但在容差范围内?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/16151911/