有某些程序,每个程序都有某些功能。还有一个特征向量,它是所有特征的并集。我对特征向量建模如下。
1-特征存在于特征向量中
0-特征向量中不存在该特征。
我必须找到以下变体之间的关系
10001110
10110101
10010111
10101100
10011101
在所有程序中,这里的关系是0,1和5位置不会改变,即它们表示的特征倾向于继续。
给定如此大的数据集,可以使用任何机器学习/数据挖掘方法来找到它们之间的关系。
最佳答案
您可以使用affinity analysis,例如,在market basket analysis中使用。
假设您的每个向量都是一个由客户签出的购物袋,而每一列都是一个产品。然后,市场购物分析将发现以下内容:
买牛奶+鸡蛋=>买黄油
最靠面包
适用于您的问题似乎很自然。