Closed. This question needs to be more focused。它当前不接受答案。
想改善这个问题吗?更新问题,使其仅通过editing this post专注于一个问题。
5年前关闭。
我从彭博,MarketWatch,CNN等各种金融网站上都有新闻报道的清单。我想根据它们的财务关联性对文章进行分类,以了解是否涉及财务困境或危机。
我使用NLTK开发了一个Python程序,该程序根据其财务相关性为每篇文章打分。
目前,我正在使用关键字的列表/词典,例如:
市场
金融
失利
贷款等
并检查新闻列表中此列表中有多少个单词,并为每个单词保留一个得分,然后将所有单词得分相加以获得总得分。
同样,我有金融短语的列表/词典:
不同意债权人
申请破产
第11章等的文件
添加此列表和上面列表中的分数,然后将总分数分配给文章,这是其相关性的指标。
我想将机器学习纳入这一过程,并希望将上述方法中已经分类的新闻文章作为训练集。
请帮助找到最佳算法以实现此目标。
想改善这个问题吗?更新问题,使其仅通过editing this post专注于一个问题。
5年前关闭。
我从彭博,MarketWatch,CNN等各种金融网站上都有新闻报道的清单。我想根据它们的财务关联性对文章进行分类,以了解是否涉及财务困境或危机。
我使用NLTK开发了一个Python程序,该程序根据其财务相关性为每篇文章打分。
目前,我正在使用关键字的列表/词典,例如:
市场
金融
失利
贷款等
并检查新闻列表中此列表中有多少个单词,并为每个单词保留一个得分,然后将所有单词得分相加以获得总得分。
同样,我有金融短语的列表/词典:
不同意债权人
申请破产
第11章等的文件
添加此列表和上面列表中的分数,然后将总分数分配给文章,这是其相关性的指标。
我想将机器学习纳入这一过程,并希望将上述方法中已经分类的新闻文章作为训练集。
请帮助找到最佳算法以实现此目标。
最佳答案
这是一个分类机器学习问题,Logistic回归可以解决问题:
Logistic Regression Wikipedia