我可以访问自己感兴趣的文本语料库上的单词向量。现在,我面临的问题是这些向量区分大小写,例如,“ Him”不同于“ him”而不同于“ HIM”。

我想找到与“ Him”一词最相似的词,不区分大小写。我使用了Google distance.c软件包随附的word2vec程序。这是我面临的一个问题。

我是否应该将“ Him him HIM”作为参数传递给distance.c可执行文件。这将返回接近3个单词的单词发送。

还是应该分别使用三个参数(“ Him”,“ him”和“ HIM”)分别运行distance.c程序,然后以明智的方式将这些列表放在一起,以得出最相似的单词?请提出建议。

最佳答案

如果要以不区分大小写的方式查找相似的单词,则应将所有单词向量都转换为小写或大写,然后运行distance.c的编译版本。

使用标准的外壳工具,这相当容易做到。

例如,如果原始数据位于名为input.txt的文件中,则以下内容将在大多数类似Unix的shell上运行。

tr '[:upper:]' '[:lower:]' < input.txt > output.txt

08-19 23:45