我正在开发一个方面级别的情感分析项目,用于旅行领域的在线旅行评论。

我有一个人工注释的数据集,其中带有标注的方面术语,方面类别以及它们的情感极性。

例如;

Sentence:

This beach was a wonderful time for a day party  it had a fun crowd and has a big bar with a great atmosphere. The food was delicious too.


上面的句子标有以下方面的术语;

{party#positive C} {crowd#positive C} {bar#positive C} {food#positive C}


以及以下方面类别;

{entertainment#positive C} {accommodation#positive C}


我想尝试一种supervised learning方法来训练模型以从句子中对方面进行分类。

我正在使用Stanford CORENLP库。但是对于训练数据格式应该如何感到困惑?什么是最好的方法。

我见过人们使用IOB notation格式化训练数据来训练NER系统。我可以使用类似的方法来完成此操作吗?像这样,如何格式化我的训练数据文件以从输入句子中获取上述的方面术语?

如果有人能指出我正确的方向,我将不胜感激。

最佳答案

可以通过将其分解为较小的子任务来解决此问题。可能的管道方法可能是:


第一个阶段是方面术语提取,它将识别原始文本中的方面术语。这也可以分解为两个子任务。首先,您的系统将需要在方面方面的文本中标记标记。我们称这些标记令牌方面方面的提及。这称为命名实体识别(NER)。接下来,如果您具有一组预定义的方面术语类,则系统将需要将在先前任务中找到的方面术语提及链接到这些类。这称为实体链接。值得注意的是,从示例中可以看出,您提供的标签数据集还不适合上述任务,因为标签未锚定在文本中。您可以通过猜测给定标签对应的文本中的标记来创建合适的数据集。这类似于远程监督工作。
下一个任务是方面术语情感分类。卷积神经网络已被用于句子和文档的情感分类,但是如果在输入中提供了分类标记的标记,则可以将卷积神经网络用于您的目的。这称为嵌入该作品的职位:http://www.cs.nyu.edu/~thien/pubs/vector15.pdf

关于machine-learning - 监督学习的方面提取方法,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/35602043/

10-12 16:36