我想创建一个基于全名检测性别的模型。
我有两本男性和女性名字的字典。我想开发一个模型来对以前看不见的名字进行分类。
我需要在NER(名称实体识别)过程之后确定性别。这将提供具有以下任一特征的PERSON实体:
全名(约翰·特拉沃尔塔)
仅NAME(约翰)
仅SURNAME(Travolta)
我只能根据(给定的)名字来决定男性还是女性。该模型仅需要处理SURNAME,并将其分类为NO_GENDER。
我知道姓氏可能很吵杂,但我必须加以处理,因为姓氏可能是输入的一部分。
最佳答案
首先,对数据进行预处理:在全名输入中,仅保留名称(请参见下文)。也将其应用于未知输入。
我建议您训练一个多类SVM。您已经知道这三个课程。组成以下训练(标记)数据:
NO_GENDER:女孩和男孩名单上的名字
女:只有女孩名单上的名字
男:只有男孩名单上的名字
NO_GENDER:已知姓氏
NO_GENDER:非名称字符串
本质上,您需要训练它以识别女性,男性和其他所有事物。
预处理
由于名称格式不同,这会给您带来麻烦。您可能在化合物名称方面遇到麻烦,例如
Bobby Jo male name with female modifier
van der Waal compound surname with male-looking prefix
St. John surname with gendered primary
Haley-Christopher hyphenated surname, genedered
如果您对输入进行预处理,则可能很难找到正确的划分,例如
Billy Jean St. John
或Marie-Therese von Klaus
。