我正在阅读并遇到以下公式:

python - 余弦相似度-LMLPHP

该公式用于余弦相似度。我认为这看起来很有趣,并创建了一个numpy数组,其中user_id作为行,item_id作为列。例如,让M为该矩阵:

M = [[2,3,4,1,0],[0,0,0,0,5],[5,4,3,0,0],[1,1,1,1,1]]


在这里,矩阵内的条目是根据行u和列i人们u对项目i给予的评分。我想为此项目(行)之间的矩阵计算此余弦相似度。我相信这将产生一个5 x 5的矩阵。我试着做

df = pd.DataFrame(M)
item_mean_subtracted = df.sub(df.mean(axis=0), axis=1)
similarity_matrix = item_mean_subtracted.fillna(0).corr(method="pearson").values


但是,这似乎不正确。

最佳答案

这是调整后的余弦相似度的可能实现:

import numpy as np
from scipy.spatial.distance import pdist, squareform

M = np.asarray([[2, 3, 4, 1, 0],
                [0, 0, 0, 0, 5],
                [5, 4, 3, 0, 0],
                [1, 1, 1, 1, 1]])

M_u = M.mean(axis=1)
item_mean_subtracted = M - M_u[:, None]
similarity_matrix = 1 - squareform(pdist(item_mean_subtracted.T, 'cosine'))


备注:


我利用NumPy broadcasting减去平均值。
如果M是稀疏矩阵,则可以执行以下操作:M.toarray()
docs


  Y = pdist(X,'余弦')
  计算向量u和v之间的余弦距离,
  1 −u⋅v/(|| u || 2 || v || 2)
  其中|| ∗ || 2是其参数*的2范数,而u⋅v是u和v的点积。

数组转置通过T方法执行。


演示:

In [277]: M_u
Out[277]: array([ 2. ,  1. ,  2.4,  1. ])

In [278]: item_mean_subtracted
Out[278]:
array([[ 0. ,  1. ,  2. , -1. , -2. ],
       [-1. , -1. , -1. , -1. ,  4. ],
       [ 2.6,  1.6,  0.6, -2.4, -2.4],
       [ 0. ,  0. ,  0. ,  0. ,  0. ]])

In [279]: np.set_printoptions(precision=2)

In [280]: similarity_matrix
Out[280]:
array([[ 1.  ,  0.87,  0.4 , -0.68, -0.72],
       [ 0.87,  1.  ,  0.8 , -0.65, -0.91],
       [ 0.4 ,  0.8 ,  1.  , -0.38, -0.8 ],
       [-0.68, -0.65, -0.38,  1.  ,  0.27],
       [-0.72, -0.91, -0.8 ,  0.27,  1.  ]])

关于python - 余弦相似度,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/42866174/

10-13 02:01