为了保护研究对象在数据集中不被识别,我对 R 中的匿名向量感兴趣。但是,我也希望在撰写研究时能够引用输出(例如“主题 [随机 ID]显示...”)。我发现我可以使用 anonymizer 包轻松生成短散列,但是虽然在书面中引用短散列是可行的,但它并不完全理想(例如“主题 f4d35fab 显示......”有点难以记住一口,并且很难区分其他散列数据,例如“来自 8b3bd334 的主题 f4d35fab 显示......”)。
有没有办法将散列转换为随机的人类可读字符串,或者甚至以非以加密为中心的方式匿名化数据?
最佳答案
只是为每个主题分配一个随机数怎么样:
> subjects <- c("Matthew", "Mark", "Luke", "John")
> subjects.anon <- sample(length(subjects))
> subjects.anon
[1] 1 4 2 3
然后你可以用引用Mark的数据谈论主题4。
如果您想要与科目数量无关的数字:
sample(1000, length(subjects)) # [1] 789 103 435 983
关于r - 如何以在 R 中生成人类可读输出的方式匿名化向量?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/49307530/