我正在尝试使用R包RecordLinkage,并且除了包two之外,还使用包作者的articles documentation作为使用指南。
我正在使用2个希望链接的大型数据集(超过100k行),因此我使用了围绕S4类RLBigDataLinkage
构建的包中的那些元素。
我首先在R中运行以下行:
>library('RecordLinkage')
>data1 <- as.data.frame(#source)
>data2 <- as.data.frame(#source)
>rpairs <- RLBigDataLinkage(data1, data2, strcmp = 2:8, exclude = 9:10)
这可以正常工作(尽管需要一些时间),并且可以写入必要的.ff文件来处理大型数据集。
如果我再尝试:
>rpairs <- epiWeights(rpairs)
要么:
>rpairs <- epiWeights(rpairs, e = 0.01, f = getFrequencies(rpairs))
然后,当我运行时:
>summary(rpairs)
我收到错误消息:
Error in dbGetQuery(object@con, "select count(*) from data1") :
error in evaluating the argument 'conn' in selecting a method for function 'dbGetQuery': Error: no slot of name "con" for this object of class "RLBigDataLinkage"
另一方面,如果我运行:
>result <- epiClassify(rpairs, 0.5)
>getTable(result)
我收到错误消息:
Error in table.ff(object@data@pairs$is_match, object@prediction, useNA = "ifany") :
Only vmodes integer currently allowed - are you sure ... contains only factors or integers?
我显然缺少有关如何处理这些对象的知识。是否有人对这个软件包有任何经验,看到我的错误?谢谢。
最佳答案
当“rpairs”的类型为“RLBigDataLinkage”时,使用print(rpairs)
,您将获得rpairs的摘要。
关于r - RecordLinkage包和RLBigDataLinkage类对象,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/19693638/