我有一个包含文本的txt文件


  目录
  
  前言1
  
  第1章:标记文本和WordNet基础7
  
  将文本标记为句子8
  
  将句子标记为单词10
  
  使用正则表达式标记句子12


如果我的字符串是:

input = "Tokenzing sentence using expressions"


我曾想过使用开头和结尾的单词来提取句子,但是有很多重复。

那么获得输出的最佳方法是什么


  使用正则表达式标记句子

最佳答案

如果您准备对章节标题进行预处理,以消除页码和其他内容,则可以:

import difflib
contents = ["Tokenizing Text and WordNet Basics",
            "Tokenizing text into sentences",
            "Tokenizing sentences into words",
            "Tokenizing sentences using regular expressions"]
input = "Tokenzing sentence using expressions"
print (difflib.get_close_matches(input, contents, n=1))


将为您提供以下输出:

['Tokenizing sentences using regular expressions']

09-26 22:15