python风控建模实战lendingClub(博主录制,catboost,lightgbm建模,2K超清分辨率)
https://study.163.com/course/courseMain.htm?courseId=1005988013&share=2&shareId=400000000398149
https://www.jianshu.com/p/a8037a38e219(原文链接)
- 背景
- 目的
- 数据集获取
- 数据处理
一、背景
公司背景
Lending Club 创立于2006年,主营业务是为市场提供P2P贷款的平台中介服务,公司总部位于旧金山。
公司在运营初期仅提供个人贷款服务,至2012年平台贷款总额达10亿美元规模。
2014年12月,Lending Club在纽交所上市,成为当年最大的科技股IPO。
2014年后公司开始为小企业提供商业贷款服务。
2015年全年Lending Club平台新设贷款金额达到了83.6亿美元。
2016年上半年Lending club爆出违规放贷丑闻,创始人离职,股价持续下跌,全年亏损额达1.46亿美元。
作为P2P界的鼻祖,Lending club跌宕起伏的发展历史还是挺吸引人的。
此处再顺便介绍一下什么是P2P。概括起来可以这样理解,“所有不涉及传统银行做媒介的信贷行为都是P2P”。简单点来说,P2P公司不会出借自有资金,而是充当“中间人”的角色,让借款人与出借人相亲相爱。
借款人高兴的是拿到了贷款,而且过程快速便利,免遭传统银行手续众多的折磨;出借人高兴的是借出资金的投资回报远高于存款利率;那么中间人高兴的是用服务换到了流水(拿的便是事成之后的抽成) 最后实现三赢。
贷款标准
借款人提交申请后,Lending Club 会根据贷款标准进行初步审查。贷款人需要满足以下标准才能借款:
1.FICO 分数在660 分以上
2.债务收入比例低于40%
3.信用报告反应以下情况:至少有两个循环账户正在使用,最近6 个月不超过5 次被调查,至少36 个月的信用记录
贷款等级
贷款分为A、B、C、D、E、F、G 7 个等级,每个等级又包含了1、2、3、4、5 五个子级。
二、目的
研究影响贷款等级的相关因素,并探寻潜藏在数据背后的一些规律
三、数据集获取
选取2016年第一季度、第二季度的数据集以及特征变量的说明文档。
说明:部分重要的特征变量似乎缺失,多次下载的数据集中缺少fico分数、fico_range_low、fico_range_high等与fico相关的特征,所以在形成结论进行总结的时候,这些特征的结论将从相关的报告中获取。
四、数据处理
在对数据进行处理前,我们需要对数据有一个整体的认识
lendData.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 133891 entries, 0 to 133890
Columns: 110 entries, id to total_il_high_credit_limit
dtypes: float64(86), object(24)
memory usage: 100.1+ MB
从上述的信息中可以看出:
1.133891行数据,110个特征变量
2.110个特征变量中有86个是浮点数类型,24个是Object对象。
获取到的信息还是太少,接下来可以通过下面的方法,得到数值型数据和Object基类的数据分布。
lendData.select_dtypes(include=['O']).describe().T\
.assign(missing_pct=lendData.apply(lambda x : (len(x)-x.count())/len(x)))
筛选出object对象的对应信息,可分别得到非空值数量、unique数量,最大频数变量,最大频数,以及新添加一列特征变量missing_pct,表示值缺失的比重。
从图表中可以得到部分信息:
1.贷款共7个等级,占比最多的是B级
2.还款的形式有两种,占比最多的是36个月
3.贷款人中大多数人工龄10+年
4.贷款人的房屋状况大多是抵押贷款
5.大多数人贷款的目的是债务整合
6.id与desc特征的数据缺失率高达0.99,间接表明这两个特征可以删除掉。
同样可以按照这种方式对浮点型的数据进行数据预览,得到均值、标准差、四分位数以及数据的缺失比重等信息。
空值、异常值处理
得到上述的信息后,我们可以根据缺失比重进行数据的清洗。在这里按照60%的阈值删除数据。最后得到100个特征变量。
原始数据集存在异常值情况,如特征变量emp_length(工龄)数据中包含‘n/a’的数据,产生原因为公式应用的错误无法找到原值,而且占比较小,清除后剩余124947行数据。
除去异常值,还包括对空值的处理,对于较为重要的特征来说,如果缺失值占比较小,可以通过填补均值进行处理。
application_joint['il_util'] = application_joint['il_util'].replace('NaN',application_joint['il_util'].mean())
特征筛选
特征筛选在数据预处理中是很关键的一步,这一步对后序的分析、挖掘有很大的影响。
经过初步的数据清洗后,我们得到了100个特征变量,这其中包括一些与最终研究目的完全无关的变量,一部分方差值很小、无法得到更多信息的变量。虽然100个特征变量不算多,但如果去掉一些无用的特征减少数据维度,且有一定的降噪效果,那么这一步是必须要做的。
这里的筛选标准如下:
1.与最终研究目的无关的特征
2.方差值太小,无法获取有用信息的特征
3.不可解释的特征
我们的研究目的是探讨影响贷款等级的众多因素,关键特征grade代表的就是不同的贷款等级,如果想剔除与grade无关的特征,那么可以用相关系数来处理。
具体要如何处理呢?特征grade中包含A、B、C、D等七个贷款等级,做数值计算之前,需要将Object类型转换为数值类型。
#贷款等级Object类型转为数值类型
grade = lendData['grade'].replace('A',1)
grade = grade.replace('B',2)
grade = grade.replace('C',3)
grade = grade.replace('D',4)
grade = grade.replace('E',5)
grade = grade.replace('F',6)
grade = grade.replace('G',7)
转换过后,我们可以将特征中所有的数值类型的数据与贷款等级进行相关系数计算。
dicti = {} #计算两组数的相关系数
for i in range(0,len(lendData.select_dtypes(include=['float64']).columns)):
try:
dicti[lendData.columns[i]] = np.corrcoef(lendData[lendData.columns[i]].dropna(),grade)[0,1]
print(lendData.columns[i],np.corrcoef(lendData[lendData.columns[i]].dropna(),grade)[0,1])
except Exception as e:
continue
经过数据可视化得到下面的相关系数分布图。
经过筛选后,得到54个特征(不包括未转换数据类型的其他Object类型特征),其中total_rec_int(目前为止收到的利息)、bc_util(银行卡流动余额与信贷限额比率)、acc_open_past_24mths(过去24个月内的交易量)、open_il_12m(过去12个月内开设的分期付款帐户数)等特征与贷款等级呈正相关关系。total_rev_hi_lim(总的周转信用额度)、total_rec_prncp(迄今收到的本金)、mths_since_recent_bc(自最近银行卡帐户开立以来的几个月)等特征与贷款等级呈明显的负相关关系。
同时,我们注意到这样的一个问题,在相关系数的分布中,有一部分相关系数较高的特征是由贷款等级来确定的(比如说贷款总金额、未偿还的本金、迄今收到的本金、利息等等,都是确定贷款等级之后才有的信息),而不是决定贷款等级的因素,因果关系不成立。这样的特征即使于贷款等级相关性高,也与最终的目的无关。
相关系数只是筛选的一种标准,具体的特征留存还需要根据对贷款业务的理解,有所保留的删减特征。
之后我们对上述的54个特征进行方差筛选,对于方差值较小、变化幅度较小的特征进行剔除,当然要综合考虑。
from sklearn.feature_selection import VarianceThreshold
#方差选择法,返回值为特征选择后的数据 #参数threshold为方差的阈值
lend = VarianceThreshold(threshold=2).fit_transform(lendData.select_dtypes(include=['float64']))
针对上述的特征进行进一步的方差筛选。其中特征collections_12_mths_ex_med无法解释/与研究目标无关,delinq_2yrs、acc_now_delinq很重要,其余特征无法判断,先保留看看。
特征重要性
经过初步特征筛选后,我们发现相关系数因素有些单一,并不能确定哪个特征更为重要,更需要进行深度探索。经过搜索得知GBDT算法可以算出变量的重要性。因为lending club贷款数据中并不包含“分类”变量target,所以GBDT通用的特征选择方法无法使用。
经过搜索找到了造好的轮子(取个巧),直接得到了算法计算后的结果,如下图所示。
其中dti(借款人每月已还债务总额占总债务计算的比率)、bc_util(所有银行卡账户的总流动余额与信贷限额/信用额度的比率)、mo_sin_old_rec_ti_op(自最早的周转帐户开立以来的月份)等特征较为重要。
Tip: 综上结合相关系数与特征重要性,去掉无因果关系的、重要性较低的特征,我们得到如下的筛选后的特征。
可能大家会注意到在筛选特征的过程中只针对数值型特征进行筛选,那么Object类型的特征呢?
根据前面得到的信息,共有24个Object类型的特征,其中有大部分特征是贷款后的才有的信息,并不能决定贷款等级。而且,在查看特征重要性中已包括Object类型的特征,如home_ownership(房屋所有权状态,包括租赁、拥有、贷款抵押三种类型的值),其余特征并不在考虑范围内。
数据的前期处理部分就到这里了,下一篇文章将主要对数据进行可视化分析、结论总结等。其实大部分的工作都在数据处理部分,可视化占较少的一部分时间。处理好了数据对后续的工作有很大的影响。
附上在数据分析的过程中遇到的很好的参考资料,包括特征工程(包括对特征的处理、筛选等)、已有的成型的数据分析文章等。
1.机器学习特征选择
4.相关性分析
- 数据可视化
- 结论
上一篇文章中,我们说到了如何处理数据,并且最后筛选出比较重要的一些特征。按道理来说,接下来我们应该对数据进行去重、归一化、进行建模了。然而时间、精力有限,且与最终要研究的目的没多大关系,所以这一部分并没有进行深层研究。
接下来我们从数据可视化开始说起,探究潜藏在数据背后的信息。
五、数据可视化
首先我们来看一下2016年第一季度业务开展情况,主要是放款笔数,金额,期限等情况
perform_data = analysis_data.groupby('month')['loan_amnt'].agg(['count','sum'])#贷款笔数与放贷金额
f, (ax1, ax2) = plt.subplots(2, 1, sharex=True)
x = perform_data.index #月份month
y1 = perform_data['count']#贷款笔数
sns.barplot(x, y1, ax=ax1)
y2 = perform_data['sum']#贷款金额
ax1.set_xlabel("")
ax1.set_ylabel("loan_count")
sns.barplot(x, y2,ax=ax2)
ax2.set_ylabel("loan_amount")
sns.despine(bottom=True)
可以看出,1月份至3月份的贷款笔数、贷款金额都在提升。
在同时,第一季度中不同等级的贷款数量都有所增长,其中F、G等级贷款继续维持在一定的、较低的成交数量,而其他等级贷款的数量和涨幅都较为明显。
通过两个图表我们对第一季度整体的业绩有了一些了解,接下来我们将更具体的了解业务的内容,比如说贷款金额、贷款期限以及利率等。
from scipy.stats import norm #贷款金额分布
sns.distplot(analysis_data.loan_amnt,fit=norm,kde=False,color='blue')
sns.despine(top=True)
单笔贷款金额在1万~2万美元范围内占比较多,较高金额的贷款数量较少,也间接证明了lending club 主营小额度的贷款项目。
analysis_data.term.value_counts().plot.pie(autopct='%.2f',figsize=(10, 10),colors = ['yellowgreen','lightblue']) #借款周期分布比例
贷款周期分为36个月与60个月,主要以36个月为主,不过60个月的比重也不小。在p2p平台上以短期贷款为主,长期贷款也有,利率较高,但周期较长。借出人收获利息,承担风险,而借入人到期要偿还本金。贷款周期越长,对借出人来说风险越高。
在国内的环境下,借出人不仅要承担推迟还款的风险,还要担心平台跑路、本息全无的高风险;对借入人来说,因为国内缺少健全的征信体系,借款方违约及重复违约成本低。
对国内的情况不再多说,话题绕回来。国外的部分国家已有健全的征信体系,一旦违约还款,违约率不断上涨,个人征信也会保留记录,对后序的贷款、买房有很大的影响。所以如果贷款周期较长,且如果没有固定的工作和固定的收入的话(即使有未定收入也不一定如期偿还),偿还本金充满变数,很有可能违约。
所以通过上图可以看出几个信息:
1.短期贷款占比重较大,长期贷款占比也不低
2.Lending club平台有较强的风控能力,部分借出方比较信任平台(不怕平台跑路),而借入方对自身的还款能力有一定的信心。
接下来我们再试着对贷款人进行分析,形成一下用户画像吧。
从图中可以看出,贷款人中有37%的比例的人工龄为10年以上。那么,我们可以考虑一下,为什么工龄超过10年的人有贷款需求呢?且占比这么高?
那么可以猜测一下(个人意见),首先可能是工龄越长,贷款通过率越高(筛选后占比较高),其次可能有部分是工作超过10年但是被裁员的(经济不好),有部分是还有工作但是需要还房贷的(不知道国外的形式),有部分是个人家庭有大笔支出的(个例,占比不大),当然不排除谎报工龄的可能。
至于猜测是否准确个人不能保证,还需要结合当年的经济形势,以及职业变动等情况进行综合判断,在此不再深究。
#贷款人收入水平
sns.factorplot(x="grade", y="annual_inc", hue="verification_status", data=lendData,order=list('ABCDEFG'),size=15,palette="Paired")
再来看看收入水平的情况。贷款人的收入水平信息分为三种情况:已经过LC验证,收入来源已验证,未验证。这三种情况目前从图中看不出有什么不同。总之,贷款等级与收入水平在整体上呈正相关的趋势。
analysis_data.home_ownership.value_counts().plot.pie(autopct='%.2f',figsize=(10, 10),colors= ['red','yellowgreen','lightskyblue']) #借款人住房状况分布
大多数人的房屋状态是抵押贷款(大部分人是房奴),只有少部分人有完全的产权。
#贷款等级与住房情况
analysis_data_home = lendData.groupby(['grade','home_ownership'])[['issue_d']].count().apply(lambda x : x/x.sum(level=0)).unstack(level=1)\
.reset_index().set_index('grade')\
.stack(level=0).reset_index(level=1, drop=True)
analysis_data_home.plot.barh(stacked=True,figsize=(15,8)).legend(loc='center left', bbox_to_anchor=(1, 0.5))
意外的发现,贷款等级越高的人群,他们的住房情况是抵押贷款的几率越高,而租房的几率越低。而拥有完全产权的人群在各个贷款等级的人群中占比差不多。
再来看看他们贷款都干什么了。
sns.countplot(y=analysis_data.purpose) #贷款用途分布
sns.despine(top=True)
可以很明显的看出debt_consolidation(可以理解为债务整合,借新还旧)占比最高,占比第二高的credit_card也归属为同一类。
综合收入水平与贷款用途得到上图,我们可以发现在第一季度中,人均收入水平较高的人群贷款用于小生意,家庭生活改善,房子等。而贷款为了债务整合(占比最高)的人群的人均收入水平在整体的中下。
对贷款人群了解的也差不多了,接下来我们看一下资产质量。
如何定义资产质量呢?在这里可以狭义地理解为在一定时期、利率、期限结构下资产所能来带的收益高低或损失可能,对于贷款来说,借款人偿还本息的及时和足额程度、借款人的信用等级、贷款的利率和期限等等都影响到资产的质量。
不过要注意,通常我们认为借款人的还款观察期最好是在6个月到12个月,因为在这个期限内,借款人还款的表现情况才逐渐趋于稳定。而计算第一季度的delinquent rate(拖欠率)是不具备代表性的,所以在这里就不对第一季度的整体Bad Rate(坏账率)做进一步的分析了,而是着重观察不同信用等级下的资产质量。
说实话,关于资产质量的这部分并没有分析经验,也是参考了一下大牛的文章引用过来的。文末会给出链接,对金融、p2p感兴趣的可以自行学习。
回归正题,既然资产质量与偿还利息是否及时、借款人信用等级等等相关,那么就把这些信息整合起来,查看一下不同贷款等级的贷款质量。
在众多特征中,有个特征变量loan_status(贷款状态)来描述当前贷款处于什么状态,其中包括Current、Fully Paid、Charged Off(注销)、Default、In Grace Period(在宽限期)、Late (16-30 days)(延期16-30天) 、Late (31-120 days)(延期31-120天)这几种状态。
#将贷款状态分为好与坏,好的贷款状态就是current(在还款期),fully paid(全部偿还),剩下的认为是坏的状态
past_due = ['In Grace Period','Late (16-30 days)', 'Late (31-120 days)', 'Default','Charged Off']
delinquent = ['Late (16-30 days)', 'Late (31-120 days)', 'Default']
lost = ['Default']
charged_off = ['Charged Off']
analysis_data_1 = analysis_data.copy()
analysis_data_1['loan_status'] = analysis_data_1['loan_status'].map(lambda x :'Past Due' if x in past_due else x)
groupd_grade = analysis_data_1.groupby(['grade','loan_status'])
pay_data_2 = groupd_grade.agg({'loan_amnt':'sum','out_prncp':'sum','total_rec_prncp':'sum','total_rec_int':'sum'}) \
.assign(loan_amnt_pct=lambda x : x['loan_amnt']/x.groupby(level=0)['loan_amnt'].sum(),
out_prncp_pct=lambda x : x['out_prncp']/x.groupby(level=0)['out_prncp'].sum())
pay_data_2
接下来分别解释一下特征的含义。total_rec_prncp(迄今收到的本金),
total_rec_int (迄今收到的利息),out_prncp (总资金中剩余的未偿还本金),后两列原数据集中没有,分别代表当前贷款金额占该等级所有贷款金额的比例, 未偿还本金金额占该等级所有未偿还本金金额的比例。
我们可以看到,贷款状态分成了三类,Past Due中包括的都是不好的贷款状态,用来衡量贷款质量。
之后我们将Past Due(坏的状态)单独提取出来
f, (ax1, ax2) = plt.subplots(2, 1, sharex=True)
x = past_due_data.index
y1 = past_due_data['loan_amnt_pct']
sns.barplot(x, y1, ax=ax1)
y2 = past_due_data['out_prncp_pct']
ax1.set_xlabel("")
ax1.set_ylabel("loan_amnt_pct") #坏的状态的贷款所占比例
sns.barplot(x, y2,ax=ax2)
ax2.set_ylabel("past_due_rate") #未偿还本金的贷款所占比例
sns.despine(bottom=True)
从图中我们看出,贷款等级越高,贷款质量越高。A等级最好,G等级最差,也从侧面看出Lending club的风控水平。
六、结论
通过数据可视化我们对2016年第一季度的数据已经有了一个整体的认识。那么我们最终要研究的问题是否已经找到答案了呢?回答是肯定的。在调查Lending club背景时,我们得到了模糊的线索。在进行数据预处理过程中,我们通过相关系数得到与贷款等级关系密切的特征,后续又通过数据可视化直观的看到与贷款等级相关的因素。下面就做一下总结。
1.首先通过背景了解到FICO分数,分数越高,贷款通过的可能性与等级也越高。
2.征信记录。包括征信查询、贷款人的不良信用记录等。征信记录很重要,并且占据较大的权重。因为过去的信用记录反映的是这个人潜在的坏账率,本来嘛LC必须要保障借出人与自身的利益。
3.资产实力。包括收入水平、住房情况、dti等。住房情况在重要性筛选过程中出现,收入水平在数据可视化过程中观察到明显的相关性。然而这些特征并不是主要的影响因素,权重较低。
通过上述的总结归纳,我们得知Lending club平台已经有了一个完整的筛选、评级体系,且有足够的风控水平,通过对信息来源进行核实,以及控制低等级贷款的数量来维持整体贷款的水平,降低坏账率。虽然现在Lending club的形势不太乐观,但在丑闻事件的打击中它还是挺过来了。不论之后该公司如何发展,至少它成型的风控水平值得国内绝大多数p2p平台学习。
python信用评分卡建模(附代码,博主录制)
扫描和关注博主二维码,学习免费python视频教学资源