我刚刚进入数据挖掘,机器学习和集群领域。我遇到特殊问题,不知道使用哪种技术来解决它。
我想对特定数据格式的观察结果(对象或其他对象)进行聚类。每个观察值中的所有变量均为数字。我的数据输入如下所示:
1 2 3 4 5 6
1 3 5 7
2 9 10 11 12 13 14
45 1 22 23 24
假设n代表行(观测值或一维向量,..),m代表列(每个向量中的变量索引)。 n可能是非常大的数字,并且0
因此,我想以某种方式执行聚类,在该聚类中,我将根据包含每个行/观测值的相同值的数量将观察结果放入一个聚类中。
如果有两行,例如:
1
1 2 3 4 5
如果没有匹配项,则应将它们群集在同一群集中。同样,一个集群中每行的数量不应超过100。
生病的问题..?如果没有,只是为了我没有提到时间维度的信息。但是现在让我们跳过它。
所以,你们的任何指示,
谢谢和最诚挚的问候,
JDK
最佳答案
很难提出任何建议,因为您的问题完全含糊,而且我们没有有关数据的信息。数据挖掘(尤其是诸如集群之类的探索性技术)都是关于理解数据的。因此,我们无法提供最终答案。
您需要考虑两件事:
1.如果数据表明存在物种或特征,则可以尝试使用Jaccard相似度(以及其他基于集合的度量)。
2.如果缺席信息少,也许您应该挖掘关联规则,而不是集群
无论哪种方式,在不了解您的数据的情况下,这些数字都和随机数一样好。您可以轻松地对随机数进行聚类,并花费数周的时间来获得最佳的无用结果!