举个联合标注的例子。一个句子为:Yesterday , George Bush gave a speech. 其中包括一个命名实体:George Bush。我们希望将标签“人名”标注到整个短语“George Bush”中,而不是将两个词分别标注。这就是联合标注。
解决联合标注问题的最简单的方法,就是将其转化为原始标注问题。标准做法就是使用BIO标注。
BIO标注:将每个元素标注为“B-X”、“I-X”或者“O”。其中,“B-X”表示此元素所在的片段属于X类型并且此元素在此片段的开头,“I-X”表示此元素所在的片段属于X类型并且此元素在此片段的中间位置,“O”表示不属于任何类型。
比如,我们将标注商品名称(cp),则BIO的三个标记为:
- (1)B-cp:商品名称的开头
- (2)I-cp:商品名称的中间
- (3)O:不是商品名称
我 O
要 O
买 O
一 O
台 O
游 B-cp
戏 I-cp
本 I-cp
参考 :
https://nlpers.blogspot.com/2006/11/getting-started-in-sequence-labeling.html