我有一个由SVM-Light格式的稀疏TF-IDF特征矩阵创建的Scipy稀疏CSR矩阵。功能数量巨大且稀疏,因此我必须使用SparseTensor,否则速度太慢。

例如,功能数量为5,示例文件如下所示:

0 4:1
1 1:3 3:4
0 5:1
0 2:1

解析后,训练集如下所示:
trainX = <scipy CSR matrix>
trainY = np.array( [0,1,00] )

我有两个重要的问题:

1)如何将其有效地转换为SparseTensor(sp_ids,sp_weights),以便使用查找执行快速乘法(W.X):https://www.tensorflow.org/versions/master/api_docs/python/nn.html#embedding_lookup_sparse

2)如何在每个时期随机化数据集,并重新计算sp_ids,sp_weights以便我可以为小批量梯度下降提供(feed_dict)。

像Logistic回归这样的简单模型上的示例代码将不胜感激。该图将如下所示:
# GRAPH
mul = tf.nn.embedding_lookup_sparse(W, X_sp_ids, X_sp_weights, combiner = "sum")  # W.X
z = tf.add(mul, b) #  W.X + b


cost_op = tf.reduce_sum(tf.nn.sigmoid_cross_entropy_with_logits(z, y_true))  # this already has built in sigmoid apply
train_op = tf.train.GradientDescentOptimizer(0.05).minimize(cost_op)  # construct optimizer

predict_op = tf.nn.sigmoid(z) # sig(W.X + b)

最佳答案

我可以回答您问题的第一部分。

def convert_sparse_matrix_to_sparse_tensor(X):
    coo = X.tocoo()
    indices = np.mat([coo.row, coo.col]).transpose()
    return tf.SparseTensor(indices, coo.data, coo.shape)

首先,将矩阵转换为COO格式。然后,您提取索引,值和形状,并将其直接传递给SparseTensor构造函数。

关于Scipy稀疏CSR矩阵到TensorFlow SparseTensor-最小批量梯度下降,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/40896157/

10-12 16:34