Closed. This question needs to be more focused。它当前不接受答案。
                            
                        
                    
                
                            
                                
                
                        
                            
                        
                    
                        
                            想改善这个问题吗?更新问题,使其仅通过editing this post专注于一个问题。
                        
                        2年前关闭。
                                                                                            
                
        
我有一个IT操作票证的数据集,其中包含票证编号,描述,类别,子类别,优先级等字段。

我需要做的是使用可用数据(票证编号除外)预测票证优先级。示例数据如下所示。

Number  Priority Created_on Description               Category     Sub Category
719515  MEDIUM  05-01-2016  MedWay 3rd Lucene.... Server       Change
720317  MEDIUM  07-01-2016  DI - Medway 13146409  Application  Incident
720447  MEDIUM  08-01-2016  DI QLD Chermside....  Application  Medway


请指导我。

最佳答案

没有更多的答案会有点困难,这更多是上下文问题,而不是代码问题。但是这里是我用来开始评估此问题的逻辑。请记住,这可能涉及编写一些单独的脚本,每个脚本执行任务的一部分。

尝试将问题分解为较小的部分。没有所有数据就无法进行分析,因此请先创建数据。

您已经使类别和子类别已在每个列表中列出了所有唯一因素,并根据您的系统和业务需求为每个因素创建了一组权重。在创建子类别权重时,请记住它们将如何与类别(+/-以及大小)交互。

编写脚本以读取描述,计算所有不平凡的单词。为单词创建某种分类,以帮助您建立列表,这些列表将为模型提供类别和子类别。
该值是您可以使用关键字提取的错误消息,计算机名称,其他代码还是问题类型?

所有单词分组的意义如何?
对做出决定有何贡献?

在决定这些事情时,请考虑类别。

然后,使用所有零件,确定模型,构建,测试和完善。我知道其中没有代码,但是数据科学中的问题解决部分通常是在代码之外发生的。

您需要自己提出代码。如果您遇到麻烦,请发表修改,我们会为您提供帮助。

10-06 10:43