我已经实现了一种用于汇总日志文件的聚类算法,并且当前正在使用调整后的兰德指数和调整后的相互信息索引针对真实数据进行测试。
我的算法的输入是日志条目列表,而输出是整数列表(每个项目所属的集群标签)。基本事实类似地是一个整数列表,其中每个整数代表该项目所属的真实簇。对于大多数测试用例,我都收到正常/预期的结果,但是一个文件给了我意外的输出。我已经附上了两个列表,即真实性聚类以及我的算法的聚类:
基本实况清单:
http://pastebin.com/9Y5TE6b7
自己的集群:
http://pastebin.com/hJz1M4sf
这两个列表被送入scikit-learn函数以获取ARI和AMI。 ARI评分看起来大致正确,但是AMI高于1,根据我的文档和AMI的定义,如果我正确理解,则应该不可能。该数据集高度不平衡,但是我的许多其他文件也类似地保持平衡。我无法弄清楚。作为参考,我获得的ARI和AMI分数是:
ARI:0.99642743999922712
AMI:1.0190170466324
最佳答案
在开发版本中为fixed。
关于python-2.7 - 调整后的共同信息(scikit学习),我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/36865542/