我可以访问自己感兴趣的文本语料库上的单词向量。现在,我面临的问题是这些向量区分大小写,例如,“ Him”不同于“ him”而不同于“ HIM”。
我想找到与“ Him”一词最相似的词,不区分大小写。我使用了Google distance.c
软件包随附的word2vec
程序。这是我面临的一个问题。
我是否应该将“ Him him HIM”作为参数传递给distance.c
可执行文件。这将返回接近3个单词的单词发送。
还是应该分别使用三个参数(“ Him”,“ him”和“ HIM”)分别运行distance.c
程序,然后以明智的方式将这些列表放在一起,以得出最相似的单词?请提出建议。
最佳答案
如果要以不区分大小写的方式查找相似的单词,则应将所有单词向量都转换为小写或大写,然后运行distance.c
的编译版本。
使用标准的外壳工具,这相当容易做到。
例如,如果原始数据位于名为input.txt
的文件中,则以下内容将在大多数类似Unix的shell上运行。
tr '[:upper:]' '[:lower:]' < input.txt > output.txt