我想将句子分类为主观或客观。

例如 :

目标:台北101是世界上最高的建筑物。

主观:维纳斯·威廉姆斯是近十年来最伟大的运动员。

我当时正在考虑使用朴素贝叶斯作为我的分类器。

我应该使用哪些数据进行训练?
我在想新闻文章和维基文章中的客观句子。
对于主观性,我当时想使用很多书(因为书往往比较主观)。

这可能有用吗,还是我在想这个错误?我可以期望什么精度?哪些数据最适合进行客观和主观的训练?

最佳答案

最好的训练数据将是您真正要分类的相同类型的数据(来自同一来源)。如果您训练新闻文章标题(作为“客观”)和书句(作为“主观”),那么实际上您正在学习一种模型来区分新闻文章标题和句子。如果随后使用此模型将tweet分类(例如)为“主观”或“客观”,则不应期望表现良好。

我建议您从将要分类为“主观”或“客观”的实际数据中手动标记1000个句子。这将为您提供相关且准确的培训数据,也可能会教您有关数据和问题的信息。然后以这1000个句子作为训练数据,并评估您的表现。

08-25 04:42