我知道GloVe通过注意到频繁发生的等来训练向量,但是为什么不包括逗号和句点呢?对于任何NLP来说,拥有向量表示似乎都是一项重要功能。我意识到类似(king-man = queen)之类的东西对(word-,=?)毫无意义,但是有没有办法表示标点符号和数字?
是否有包含此类内容的预制数据集?这甚至行得通吗?
我尝试使用自己的数据集来训练GloVe,但是遇到单词之间的标点符号(带空格)分离等问题。
最佳答案
我已经对Senna使用的单词vector做了一些工作,我正在查看vocab列表。
http://ml.nec-labs.com/senna/
我肯定会看到标点符号条目。
处理数字的技巧是将每个数字替换为0,然后学习每个模式的分布。例如1999映射到0000,2015年1月1日映射到00-00-0000,依此类推...
番泻叶有这些模式的条目,例如0000等。
我将查看GloVe,并尝试尽快更新此答案...