我想使用YAGO 3 rdf三元组(http://www.mpi-inf.mpg.de/departments/databases-and-information-systems/research/yago-naga/yago/downloads/的yago3_entire_ttl.7z)到使用tdbloader的apache-jena三元组(3.1.0)中。
apache-jena提供的用于验证输入的防暴工具提供了两种类型的错误(多次出现):
非法Unicode转义序列值:\\(0x5C)
IRI中的非法字符(代码点0x7C,“ |”)
我明显的想法是替换'\\'和'|'具有通过防暴验证的可接受字符序列,但是我想知道是否还有其他解决方案?
最佳答案
在这里找到解决方案:
现在,.ttl文件需要进行某种预处理,其中替换非Unicode字符以使Jena接受数据。在Linux上,运行sed -i's / | /-/ g'./* && sed -i's / \\ /-/ g'./* && sed -i's / – /-/ g'./ *从.ttl文件所在的目录中。在Windows上,启动Ubuntu Bash,导航到相应目录(例如/ mnt / c / Users / Ferdinand / yago),然后执行相同的命令。这需要几分钟。我的意思是,真的有几个...
https://ferdinand-muetsch.de/how-to-load-yago-into-apache-jena-fuseki.html
关于rdf - 在加载到apache-jena TDB Triplestore中之前先对YAGO文件进行 sanitizer ,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/39664819/