我正在使用spark 1.6余弦相似性(DIMSUM)算法。
引用:https://github.com/eBay/Spark/blob/master/examples/src/main/scala/org/apache/spark/examples/mllib/CosineSimilarity.scala
这就是我正在做的。
输入:
50k个文档的文本,数据帧中有id。
处理:
标记文本
使用word2Vec生成矢量
生成的行矩阵
使用具有阈值的列相似性方法(dimsum)
输出:
得到一个坐标矩阵
在打印出这个坐标矩阵的条目时
格式示例:MatrixEntry(133185,0.0410642585060451)
我不明白数字133和185是什么。我猜这些是文档ID/序列号,但我不确定。有人能帮忙吗?
如果这个问题很琐碎,请道歉。
最佳答案
MatrixEntry(i, j, value)
表示第i列和第j列之间的相似性,因此
MatrixEntry(133,185,0.04106425850610451)
是第133列和第185列之间的相似性这些值对应于术语而不是文档。