Closed. This question needs to be more focused。它当前不接受答案。
                            
                        
                    
                
                            
                                
                
                        
                            
                        
                    
                        
                            想改善这个问题吗?更新问题,使其仅通过editing this post专注于一个问题。
                        
                        5年前关闭。
                                                                                            
                
        
我从彭博,MarketWatch,CNN等各种金融网站上都有新闻报道的清单。我想根据它们的财务关联性对文章进行分类,以了解是否涉及财务困境或危机。

我使用NLTK开发了一个Python程序,该程序根据其财务相关性为每篇文章打分。

目前,我正在使用关键字的列表/词典,例如:


市场
金融
失利
贷款等


并检查新闻列表中此列表中有多少个单词,并为每个单词保留一个得分,然后将所有单词得分相加以获得总得分。

同样,我有金融短语的列表/词典:


不同意债权人
申请破产
第11章等的文件


添加此列表和上面列表中的分数,然后将总分数分配给文章,这是其相关性的指标。

我想将机器学习纳入这一过程,并希望将上述方法中已经分类的新闻文章作为训练集。

请帮助找到最佳算法以实现此目标。

最佳答案

这是一个分类机器学习问题,Logistic回归可以解决问题:

Logistic Regression Wikipedia

07-24 09:53
查看更多