machine-learning - 训练数据集的局限性是什么-Uima Ruta-LMLPHP在TextRuler视图中,训练数据中的输入数量是否有限制,因为它花费了太多时间,有时它会生成规则,否则它会显示一些GC开销限制。

如果我尝试使用算法生成的脚本,则会显示一些错误。

错误:

Error in KEP,  line 160, "SCRIPT": found no viable alternative


生成的脚本:

SCRIPTSTART{->MARKONCE(SCRIPT,1,3)} ANY*? SCRIPTEND;
SCRIPTSTART{IS(SCRIPTEND)->MARKONCE(SCRIPT)} ;

最佳答案

关于错误:

该错误表明SCRIPT是未知的。是否声明了SCRIPT类型?
生成的规则可能只是规则,您可能需要添加导入才能构建正确的脚本。第160行的内容是什么?

关于TextRuler的一般信息:

创建框架是为了在规则工程过程中为用户提供支持。它不是为常见的监督机器学习而优化的框架。因此,它没有针对运行时和内存使用进行优化。

算法为每个示例创建规则,并尝试获得良好的覆盖率。因此,示例越多,算法花费的时间就越长。

内存使用率不应太高。这可能是可以解决的,但是现在没有人可以解决。

免责声明:我是UIMA Ruta的开发人员

08-20 00:12