我有一个包含许多句子的文本语料库,其中带有一些命名的实体。
例如,句子:

威奇托得克萨斯州最好的餐厅是什么?

标记为:

<location>最好的餐厅是什么?

我想扩展这个语料库,方法是对其中已有的所有句子进行抽样或采样,然后将命名的实体替换为其他相同类型的相似实体,例如用“纽约”替换“ wichita texas”,因此语料库将更大(更多句子)和更完整(其中的实体数量)。我有类似实体的列表,包括那些未出现在语料库中的实体,但我希望有一些可能性将其插入替换对象中。

您能推荐一种方法或将我引向对此的论文吗?

最佳答案

对于您的特定问题:
假设您有一个有组织的命名实体列表(例如“地点”,“人”等的单独列表),这种类型的工作通常由手动删除可能含糊的名称组成(例如,可以从中删除“球衣”您的地点清单,以免涉及服装。一旦确定删除了最模糊的名称,只需为每组术语(例如“位置”或“人”)选择一个适当的标记。在包含这些单词之一的每个句子中,用标签替换该单词。然后,您可以使用所选的编程语言进行一些基本的扩展,以便每个包含“位置”的句子与每个位置名称重复,每个包含“人”的句子与每个人名称重复,等等。

有关使用单词类进行聚类的一般概述,请参阅开创性的Brown等。等纸:http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.13.9919&rep=rep1&type=pdf

关于machine-learning - 通过类扩大文本语料库,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/22936547/

10-12 18:04