我正在使用C ++ Twitter公司的情绪分析工具。用户输入公司,该工具将分析#条推文并返回情绪。
到目前为止,我执行了以下操作:
将推文限制为英语和最新消息
小写
删除RT,#符号,@用户名和URL
删除&^%$(){} ...等字符
然后,我将推文解析为单词,并根据正负两个词的词典来检查单词。我为每条推文都创建了总情绪。然后,我计算正面,中性和负面推文的数量,以得出最终答案。不使用重量。
我正在考虑实现以下两件事:
从推文中删除停用词
从推文中删除特殊字符和表情(基本上非英语Unicode)
但是,即使这样,大多数搜索最终还是非常中立的。例如,如果我在100条推文中搜索“ Apple”,我会说30个肯定,10个否定和60个中性。
问题:
1.有什么方法可以降低中性点?
2.我应该添加什么样的肯定和否定词来表示我的搜索标准(公司)
最佳答案
您说没有使用加权,但为什么不添加加权呢?为每个+/-词分配1的基本权重,然后可以应用以下某些条件:
如果他们使用“非常”,“极度”等单词,则对以下形容词加重(或不加重,则将它们均视为+/-单词)
如果涉及到大写锁定,而不是将所有内容都更改为小写,则使用乘数对这些单词进行加权
给“神奇”这样的单词评分比“好”这样的单词重