我目前正在从事“命名实体识别”任务。我正在使用条件随机场算法对标记的实体进行分类。我想知道这种算法是否像BERT一样是双向的?
该算法为每个单词提供的功能包括上一个单词和下一个单词,所以我想是这样。这是否也意味着CRF在整个句子中都可以预测?还是每个字?
谢谢您对这个问题的指导!
最佳答案
没有。
例如,线性链条件随机字段如下所示:
如您所见,要预测Y4,可以使用观察特征phi_4'(Y4,X4)和过渡特征phi_3(Y3,Y4)。这是因为基于马尔可夫假设,因此遵循CRF,即Y3的预测已经取决于Y3和Y2,因此,仅从Y3估算Y'4的转移概率。
但是,您始终可以按相反的顺序提供观察特征序列的输入,以获得相反的转移概率。