我对机器学习非常陌生,只有很少的经验,我做了一些项目。

现在我有一个与保险有关的项目。因此,我有关于客户的数据库,我将合并这些数据库以获取有关客户的所有可能的信息,并且我有一个用于索赔的数据库。我需要建立一个模型,以根据排名确定客户的风险。

我的问题:我需要建立目标变量,根据客户的风险程度对客户进行排名,并依靠索赔。我可以采用不同的策略来做到这一点,但是我对如何处理以下内容感到困惑:
-在建立排名(例如聚类)之前,我是否应该进行特定类型的分析,否则我需要具有与项目提供者愿景相匹配的强大理论假设。
-如果我使用理赔数据库中的一些变量来建立排名,那么以后我将如何处理它们。换句话说,我应该将它们从最终数据集中删除以进行训练,以避免与目标变量相关,或者可以用其他方式对其进行处理并保留它们。
-如果我保留它们,是否根据它们是分类变量还是连续变量对它们进行特殊处理。

最佳答案

每个机器学习项目的起点都是EDA。首先创建一些功能,例如,他们多久收到一次不好的申诉或得到多少次。然后执行一些EDA来查找哪些功能更有用。其次,问题看起来像分类。聚类通常更难评估。

08-19 20:10