我想创建一个基于全名检测性别的模型。
我有两本男性和女性名字的字典。我想开发一个模型来对以前看不见的名字进行分类。

我需要在NER(名称实体识别)过程之后确定性别。这将提供具有以下任一特征的PERSON实体:


全名(约翰·特拉沃尔塔)
仅NAME(约翰)
仅SURNAME(Travolta)


我只能根据(给定的)名字来决定男性还是女性。该模型仅需要处理SURNAME,并将其分类为NO_GENDER。

我知道姓氏可能很吵杂,但我必须加以处理,因为姓氏可能是输入的一部分。

最佳答案

首先,对数据进行预处理:在全名输入中,仅保留名称(请参见下文)。也将其应用于未知输入。

我建议您训练一个多类SVM。您已经知道这三个课程。组成以下训练(标记)数据:


NO_GENDER:女孩和男孩名单上的名字
女:只有女孩名单上的名字
男:只有男孩名单上的名字
NO_GENDER:已知姓氏
NO_GENDER:非名称字符串


本质上,您需要训练它以识别女性,男性和其他所有事物。

预处理

由于名称格式不同,这会给您带来麻烦。您可能在化合物名称方面遇到麻烦,例如

Bobby Jo             male name with female modifier
van der Waal         compound surname with male-looking prefix
St. John             surname with gendered primary
Haley-Christopher    hyphenated surname, genedered


如果您对输入进行预处理,则可能很难找到正确的划分,例如Billy Jean St. JohnMarie-Therese von Klaus

09-11 10:58