我正在Windows中执行NLP项目,问题是每当我从命令提示符运行Stanford CoreNLP时,生成给定输入文本文件的XML输出大约需要14-15秒。我认为此问题是因为加载库需要花费大量时间。请问有人能说明问题是什么,如何解决这个问题,因为这次问题对我的项目来说是一个大问题?

最佳答案

斯坦福大学CoreNLP使用各种组件的大型参数模型文件。是的,它们需要很多时间来加载。您要做的就是只启动一次程序,然后输入大量文本。

你如何做取决于你在做什么:


您可以将-filelist传递给命令行版本,以一次处理一大堆文件。
您可以让一个StanfordCoreNLP对象保持运行状态,并向其发送文件,然后使用API​​返回输出。
根据您需要的NLP处理方式,还可以通过不加载不使用的模型来加快启动速度。请参阅“注释者”属性。


2016年更新:现在,在文档页面Understanding memory and time usage上对此有更多信息

关于java - 斯坦福大学CoreNLP非常慢,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/11219392/

10-10 16:11