我必须对一长串单词实施文本分类。我定义了一些类别,例如如果“UK”一词在列表中,它将在“Regions”下。如果单词“Pizza”(比萨),它将属于“食品”类别。

如何将单词分类为不同类别?有没有开源工具可以做到这一点?

最佳答案

我不确定您要做什么,但是如果您要为多个类别建立代表词列表,则可以通过从中选择前N个最常用的词(不包括stop words)来做到这一点。一组代表每个类别的文件。这是创建非常基本的本体的简单方法。

例如,要创建一组有关食物的单词,您可以在网上搜寻 recipiesmenus ,然后从中选择最常用的单词。我希望一旦您排除了停用词,您就会得到一份与食物相关的词汇的好清单。对于与编程相关的单词,您可以抓取 stackoverflow.com 等,等等。

再说一遍,这可能不是您要尝试做的...

10-01 06:11