假设您有一个queen单词的单词向量。对于任何n的实际值,它的某些标量倍数将为x = queen + queeny = queen + queen + queenn * queen(因此,我们还考虑了n的非整数值,例如0.83 * queen)。

根据最相似词的投影权重向量的简单均值与向量皇后+皇后之间的余弦相似度,将x视为与向量皇后+皇后最相似的词。

通过相同的方法,将y视为最类似于向量Queen + Queen + Queen的单词。

那么,单词xyqueen之间的语义关系是什么?我知道这些向量在向量中的维值之间都将具有相同的比率,但是我很难弄清楚如何从词义上理解这一点。

我的直觉是,我会在另一个上下文中得到一些东西,该上下文中的位置类似于皇后。例如,女王的“财富”可能比女王的“美丽”大得多。因此,我将在另一个上下文中得到另一个词,该词的财富/美容平衡与“女王”相同。

假设我将皇后乘以n时,我正从皇家头衔(皇后,国王,公主...)转到福布斯榜单(杰夫·贝佐斯,比尔·盖茨,沃伦·巴菲特...)。

皇后* n =在《福布斯》排行榜上与皇后拥有相同财富/美丽平衡的人(非常有钱,但不是很漂亮)

公主* n =在《福布斯》排行榜上与公主拥有相同的财富/美丽平衡的人(中等富裕,但非常漂亮)

但这只是一个荒诞的理论,我不知道如何系统地证明这是真实的。

最佳答案

对于任何wv['queen'],与n * wv['queen']的最余弦相似度最高的词将与与n的大多数余弦相似度完全相同,因为余弦相似度不受矢量幅度的影响。因此,您的假设是错误的。

如果您要在原始(而非单位归一化)字向量上使用欧几里得距离而不是余弦相似度,则可能会发现其他有趣的关系……但这不是使用/比较字向量的典型方式,因此您必须进行试验,并且我对您可能会发现的东西或它是否有用没有期望。

通常,原始的非单位归一化的词向量对于具有单一狭义意义的词(它们出现的所有上下文都非常相似)倾向于具有较高的幅度,而具有多种意义和不同上下文的词倾向于具有较小的幅度。但是我不确定您是否可以依靠这一点。一旦将词向量归一化为单位长度(因此所有词都在同一个“单位球体”上),则最近邻的秩顺序将相同,即余弦距离或欧几里得距离(即使距离/相似度数字在每个等级上都不相同或不成比例)。

09-27 09:00