我有一个数据集,该实例的实例大约有200个特征,其中大约11个特征是数字特征(整数),其余是二进制特征(1/0),这些特征可能是相关的,并且具有不同的概率分布,
一段时间以来,我一直在争取一个良好的相似度分数,该分数适用于混合向量,并考虑了特征之间的相关性,
你知道这样的相似度分数吗?
谢谢,
阿里安
最佳答案
距离测量的多种类型,Euclidean,Manhattan等将根据数据集提供不同级别的准确性。最好阅读涵盖您的数据拟合方法的论文,并查看它们使用的启发式方法。更不用说某些方法仅需要相应缩放的同类数据。 Here是一篇论文,讨论了可能会吸引您的大量措施。
与往常一样,进行测试和交叉验证,看看是否确实存在要素类型混合带来的影响。
关于statistics - 混合(二进制和数字)向量的相似性得分,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/13308972/