我们正在建立科学论文数据库并对摘要进行分析。目标是能够说“对这个话题的兴趣比去年增加了 20%”。我已经尝试过关键字分析,但并不是很喜欢结果。所以现在我正在尝试研究短语和单词之间的接近程度,并意识到我已经无法理解了。任何人都可以指出我对此的更好解决方案,或者至少给我一个好词来谷歌了解更多信息?
使用的语言是 python,但我认为这不会真正影响你的答案。先谢谢您的帮助。
最佳答案
这是一个很大的主题,但是可以使用 NLTK 工具包找到像这样的 NLP 的很好介绍。这是用于教学和使用 Python - 即。适合涉足和试验。 NLTK 网站上还有一本非常好的开源书籍(也是 O'Reilly 的纸质版)。
关于string - 评估段落的内容,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/4129117/