有某些程序,每个程序都有某些功能。还有一个特征向量,它是所有特征的并集。我对特征向量建模如下。

1-特征存在于特征向量中

0-特征向量中不存在该特征。

我必须找到以下变体之间的关系

10001110

10110101

10010111

10101100

10011101

在所有程序中,这里的关系是0,1和5位置不会改变,即它们表示的特征倾向于继续。
给定如此大的数据集,可以使用任何机器学习/数据挖掘方法来找到它们之间的关系。

最佳答案

您可以使用affinity analysis,例如,在market basket analysis中使用。

假设您的每个向量都是一个由客户签出的购物袋,而每一列都是一个产品。然后,市场购物分析将发现以下内容:


买牛奶+鸡蛋=>买黄油
最靠面包


适用于您的问题似乎很自然。

10-06 16:02