我尝试用mahout部署20个新闻组示例,看来工作正常。出于好奇,我想深入研究模型统计数据,
例如:bayes-model目录包含以下子目录,
培训师-tfIdf培训师-thetaNormalizer培训师重量
其中包含部分0000文件。我想阅读文件的内容以更好地理解,cat命令似乎不起作用,它会打印一些垃圾。
任何帮助表示赞赏。
谢谢
最佳答案
“part-00000”文件由Hadoop创建,并且采用Hadoop的SequenceFile
格式,其中包含特定于Mahout的值。您不能将它们作为文本文件打开,不能。您可以在Mahout中找到实用程序类SequenceFileDumper
,它将尝试将内容作为文本输出到stdout。
关于这些值的开始,它们是Mahout执行的基于Hadoop的多阶段计算的中间结果。您可以阅读代码以更好地理解这些内容。例如,“tfidf”目录包含与词频相关的中间计算。
关于hadoop - Mahout-朴素贝叶斯,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/8118645/