我想分析一本教科书的索引,但格式总是不一致的。关于如何处理这些条目的任何建议。
冗长的词
文字,##-###
冗长的话,###
父词##
孩子的话##
没有父母就没有意义的话###
更多没有意义的单词,没有父词,#####
话,##, ###-###, ###
父母的话,###-###
孩子的话##
与父母有关的专有名词,但没有意义###
目标是能够通过第一个出现的页码对它们进行排序,并将子文本附加到父文本,并使用子文本的页码;替换旧子文本这样就存在了Parenting Word child words, ##
。
最佳答案
我会回来编辑订单并上传图表。
如果条目有页码(仅对有孩子的家长重要)
如果条目前后按字母顺序排列(将捕获一些专有名词)
如果条目大写(捕获除专有名词以外的所有名词)
在找到一个新的可信的家长(大写字母,而不是最后一个孩子的字母顺序,可能会在页数上寻找较大的空白)时,用孩子填写家长信息。
页码只能附加“f”以指示数字建立父项的链接列表(帮助捕获经过的专有名词)
父信息应该是动态的,这样,如果专有名词在应该是子名词时被归类为父名词,那么它可以被快速转换为正确的父名词。
为了帮助识别它是否是一个专有名词,比较页码,如果在前一个父或父的子代中提到了相同的页码或在合理范围内,则标记为潜在的专有名词以供人工审阅。
将分隔符设置为逗号,并在其周围使用一些魔法,以便在其后和之前查找“[0-9]”。我们知道华氏0-9度?\n[A-Z]结束输入。
这一点都不快,但对于
关于algorithm - 解析教科书索引,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/52908776/