我正在寻找一个Python库/算法/纸,从自由文本中提取一个杂货清单。
例如:
“一份沙拉和两瓶啤酒”
应转换为:

{'salad':1, 'beer': 2}

最佳答案

我建议使用WordNet。你可以从Java(JWNL库)调用它。这里有一个建议:对于每个单词,检查它的上位词。对于超名层次结构顶层的可食性食物,你会发现“食物,营养素”。这可能是你想要的。现在要测试这个,在Online版本中查询单词“beer”。单击“s”,然后单击“继承的超名称”。你会在层次结构中找到这个:

....
    S: (n) beverage, drink, drinkable, potable (any liquid suitable for drinking) "may I take your beverage order?"
        S: (n) food, nutrient (any substance that can be metabolized by an animal to give energy and build tissue)
          ....

您可以使用您所选择的编程语言遍历该层次结构。一旦您标记了所有的可编辑内容,那么您就可以在“2啤酒”中捕获该数字,即2,并且您拥有所需的所有信息。注意,自己捕获数字可以是一个下降编码任务!希望有帮助!

08-24 23:49