我用scikit-learn-nmf模型对我的训练数据进行拟合。现在,我使用

result_1 = model.inverse_transform(model.transform(new_data))

然后,我使用幻灯片15here中的公式,从NMF模型中手动获取数据的逆变换。
temp = np.dot(model.components_, model.components_.T)
transform = np.dot(np.dot(model.components_.T, np.linalg.pinv(temp)),
model.components_)
result_2 = np.dot(new_data, transform)

我想知道为什么这两个结果不匹配。
在计算反变换和重建数据时,我做错了什么?
示例代码:
import numpy as np
from sklearn.decomposition import NMF

data = np.array([[0,0,1,1,1],[0,1,1,0,0],[0,1,0,0,0],[1,0,0,1,0]])
print(data)
//array([[0, 0, 1, 1, 1],
       [0, 1, 1, 0, 0],
       [0, 1, 0, 0, 0],
       [1, 0, 0, 1, 0]])


model = NMF(alpha=0.0, init='random', l1_ratio=0.0, max_iter=200, n_components=2, random_state=0, shuffle=False, solver='cd', tol=0.0001, verbose=0)
model.fit(data)
NMF(alpha=0.0, beta_loss='frobenius', init='random', l1_ratio=0.0,
  max_iter=200, n_components=2, random_state=0, shuffle=False, solver='cd',
  tol=0.0001, verbose=0)

new_data = np.array([[0,0,1,0,0], [1,0,0,0,0]])
print(new_data)
//array([[0, 0, 1, 0, 0],
       [1, 0, 0, 0, 0]])

result_1 = model.inverse_transform(model.transform(new_data))
print(result_1)
//array([[ 0.09232497,  0.38903892,  0.36668712,  0.23067627,  0.1383513 ],
       [ 0.0877082 ,  0.        ,  0.12131779,  0.21914115,  0.13143295]])

temp = np.dot(model.components_, model.components_.T)
transform = np.dot(np.dot(model.components_.T, np.linalg.pinv(temp)), model.components_)
result_2 = np.dot(new_data, transform)
print(result_2)
//array([[ 0.09232484,  0.389039  ,  0.36668699,  0.23067595,  0.13835111],
       [ 0.09193481, -0.05671439,  0.09232484,  0.22970145,  0.13776664]])

注意:虽然这不是描述我的问题的最佳数据,但代码本质上是相同的。在实际情况中,result_1result_2也有很大的不同。datanew_data也是大数组。

最佳答案

会发生什么
在scikit学习中,NMF不仅仅是简单的矩阵乘法:它优化了!
解码(inverse_transform)是线性的:模型计算X_decoded = dot(W, H),其中W是编码矩阵,H=model.components_是模型参数的学习矩阵。
然而,编码(transform)是非线性的:它执行W = argmin(loss(X_original, H, W))(仅针对W),其中损耗是X_originaldot(W, H)之间的均方误差,加上一些额外的惩罚(l1和l2规范W),并且具有W必须为非负的约束。通过坐标下降进行最小化,结果在X_original中可能是非线性的。因此,不能简单地通过乘矩阵得到W
为什么这么奇怪
nmf必须执行这种奇怪的计算,因为否则,模型可能会产生负结果。实际上,在您自己的示例中,您可以尝试通过矩阵乘法执行转换

 print(np.dot(new_data, np.dot(model.components_.T, np.linalg.pinv(temp))))

得到包含负数的结果:
[[ 0.17328927  0.39649966]
 [ 0.1725572  -0.05780202]]

然而,NMF内的坐标下降通过稍微修改矩阵避免了这个问题:
 print(model.transform(new_data))

给出非负结果
[[0.17328951 0.39649958]
 [0.16462405 0.        ]]

您可以看到,它并不是简单地从下面剪裁W矩阵,而是同时修改正元素,以提高拟合度(并遵守正则化惩罚)。

08-20 01:41