我用Python运行lda库,并运行这个示例有人知道x,vocab和titles的格式吗?我找不到文件。

import numpy as np
import lda
X = lda.datasets.load_reuters()
vocab = lda.datasets.load_reuters_vocab()
titles = lda.datasets.load_reuters_titles()

最佳答案

x是一个矩阵,其中行是标题,列是vocab。它是标题文本的一包单词表示法。

X
Out[8]:
array([[1, 0, 1, ..., 0, 0, 0],
       [7, 0, 2, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       ...,
       [1, 0, 1, ..., 0, 0, 0],
       [1, 0, 1, ..., 0, 0, 0],
       [1, 0, 1, ..., 0, 0, 0]], dtype=int32)

在上面的矩阵中,每一行是一个单独标题的单词表示包。每一列代表一个特定的单词示例。
vocab[:5]
Out[5]: ('church', 'pope', 'years', 'people', 'mother')

因此,x矩阵中的每一行i,col j给出了第i个标题中特定单词的频率。
titles[:1]
Out[11]: ('0 UK: Prince Charles spearheads British royal revolution. LONDON 1996-08-20',)

标题U:查尔斯王子…提到教会一次,教皇0次,年一次,等等。
In [13]: type(titles)
Out[13]: tuple

In [14]: type(vocab)
Out[14]: tuple

In [15]: type(X)
Out[15]: numpy.ndarray

07-24 21:13