我尝试用mahout部署20个新闻组示例,看来工作正常。出于好奇,我想深入研究模型统计数据,

例如:bayes-model目录包含以下子目录,

培训师-tfIdf培训师-thetaNormalizer培训师重量

其中包含部分0000文件。我想阅读文件的内容以更好地理解,cat命令似乎不起作用,它会打印一些垃圾。

任何帮助表示赞赏。

谢谢

最佳答案

“part-00000”文件由Hadoop创建,并且采用Hadoop的SequenceFile格式,其中包含特定于Mahout的值。您不能将它们作为文本文件打开,不能。您可以在Mahout中找到实用程序类SequenceFileDumper,它将尝试将内容作为文本输出到stdout。

关于这些值的开始,它们是Mahout执行的基于Hadoop的多阶段计算的中间结果。您可以阅读代码以更好地理解这些内容。例如,“tfidf”目录包含与词频相关的中间计算。

关于hadoop - Mahout-朴素贝叶斯,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/8118645/

10-14 14:06