您如何使用NLP/信息提取(IE)方法检测/找出首字母缩写词的含义(扩展名)?
我们想在自由文本中检测是否使用了单词或首字母缩写词,并将其映射到相同的实体/ token 。
在线提供的大多数论文都是有关医学首字母缩略词的,它们没有提供完成此任务的库。
有任何想法吗?
最佳答案
阅读您的问题和评论,我知道您想创建一个从首字母缩写词到其扩展名的映射。
假设您有一个同时出现首字母缩写词及其扩展名的文本文档集合,则可以应用一种算法来提取(缩写词,扩展名)对。
A.S Schwartz和M.A. Hearst的A Simple Algorithm for Identifying Abbreviation Definitions in Biomedical Text通过查看模式来做到这一点。 Java实现可用here。
我将此算法应用于英语维基百科,可以看到结果here。我还将其应用于一系列葡萄牙语新文章中,结果为here。
关于nlp - 如何自动检测首字母缩写词的含义/扩展名,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/26716622/