machine-learning - 加权词嵌入是什么意思？

在我要实施的paper中，它说，

  在这项工作中，使用三种类型的文本对推文进行了建模
  表示。第一个是单词袋模型，权重为
  tf-idf（期限频率
  -反文档频率）（部分
  2.1.1）。第二个表示通过平均所有单词（在句子中）的词嵌入来表示的句子，第三个表示一个
  通过对所有单词的加权单词嵌入进行平均来得出句子，
  单词的权重由tf-idf（Section
  2.1.2）。

我不确定第三种表示形式，即使用单词权重的加权单词嵌入是由tf-idf给出的。我什至不确定它们是否可以一起使用。

最佳答案

平均（可能是加权）单词嵌入是有意义的，尽管取决于主要算法和训练数据，该句子表示可能不是最佳的。直觉如下：

您可能需要处理不同长度的句子，因此要求平均值（比普通和更好）。
句子中的某些单词通常比其他单词更有价值。 TF-IDF是单词值的最简单度量。请注意，结果的大小不变。

另请参见this paper by Kenter et al。有一个nice post在不同算法中执行这两种方法的比较，得出的结论是，没有一种方法比另一种方法明显更好：某些算法支持简单平均，某些算法在TF-IDF加权下表现更好。

关于machine-learning - 加权词嵌入是什么意思？，我们在Stack Overflow上找到一个类似的问题：https://stackoverflow.com/questions/47727078/