任何人都可以在Smalltalk中展示自然语言处理的tf-idf算法的简单实现或用法示例吗?
我在名为NaturalSmalltalk的程序包中找到了一个实现,但是对于我的需求来说似乎太复杂了。 Python中的简单实现类似于this one

我注意到Hapax中还有另一个tf-idf,但它似乎与软件系统词汇的分析有关,并且我没有找到使用它的示例。

最佳答案

我是Visualworks的原始Hapax软件包的作者。 Hapax是一个通用信息检索程序包,它应该能够处理任何类型的文本文件。碰巧,所以我曾经用它来分析源代码文件。

您要查找的类是TermDocumentMatrix,应该根据您的需要将globalWeighting:localWeighting:InverseDocumentFrequency的实例传递给两个方法LogTermFrequencyTermFrequency。通常,在提到tfidf时,人们会说它包括对数术语频率。

应该使用一个小示例语料库来最好的测试来展示TDM类。如果测试尚未移植到Squeak,请告诉我,以便为您提供示例。

10-07 12:18