在我要实施的paper中,它说,
在这项工作中,使用三种类型的文本对推文进行了建模
表示。第一个是单词袋模型,权重为
tf-idf(期限频率
-反文档频率)(部分
2.1.1)。第二个表示通过平均所有单词(在句子中)的词嵌入来表示的句子,第三个表示一个
通过对所有单词的加权单词嵌入进行平均来得出句子,
单词的权重由tf-idf(Section
2.1.2)。
我不确定第三种表示形式,即使用单词权重的加权单词嵌入是由tf-idf给出的。我什至不确定它们是否可以一起使用。
最佳答案
平均(可能是加权)单词嵌入是有意义的,尽管取决于主要算法和训练数据,该句子表示可能不是最佳的。直觉如下:
您可能需要处理不同长度的句子,因此要求平均值(比普通和更好)。
句子中的某些单词通常比其他单词更有价值。 TF-IDF是单词值的最简单度量。请注意,结果的大小不变。
另请参见this paper by Kenter et al。有一个nice post在不同算法中执行这两种方法的比较,得出的结论是,没有一种方法比另一种方法明显更好:某些算法支持简单平均,某些算法在TF-IDF加权下表现更好。
关于machine-learning - 加权词嵌入是什么意思?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/47727078/