机器学习:信用风险建模中的挑战,教训和机遇(4)
扫一扫
分享文章到微信
扫一扫
关注99科技网微信公众号
机器学习方法在捕获非线性关系方面特别有效。我们来仔细看看EBITDA与利息费用比率。直观地说,这个比率与违约风险有非线性关系。在图7中,我们将比率划分为50个百分点,并计算预测违约概率(PD)和实际违约率的平均值。我们用x轴上的百分比与y轴上的默认率(以%表示)进行绘制。违约率随着息税折旧摊销前利润与利息费用比率的增加而下降。但是,在左侧,EBIDTA变为负值时会出现拐点。当EBITDA为负时,由于利息支出减少使得比率更负,所以违约风险应该降低。从图中我们可以看出,机器学习提升方法比GAM模型更准确地预测实际违约率,特别是在左侧。我们也观察到来自其他比率图的类似行为。因此,我们观察到机器学习方法的适度改进预测。
图7 基于EBITDA的不同价值与利息支出比较机器学习和GAM PD水平
过拟合问题尽管使用交叉验证来尽量减少过度拟合,但机器学习模型仍可能产生难以解释和捍卫的结果。图8显示了两种情况,其中由增强方法确定的PD与由GAM方法确定的PD明显不同。
图8 机器学习算法的过拟合问题 在案例1中,资产回报率(ROA)低,现金与资产比率低,债务与资本比率高的公司被归类为安全,隐含评级为A3。直观地说,正如GAM所预测的那样,该公司的PD应该反映更高的风险水平。类似地,案例2中,利息支出高,资产回报率高,留存收益高的公司利用助推方法归类为Caa / C。在这两种情况下,底层算法的复杂性使得难以解释boosting方法的非直观PD。基于GAM模型的RiskCalc模型的结果更直观,更易于解释。
总结本练习使用RiskCalc软件的GAM模型作为基准分析三种机器学习方法的性能。机器学习方法可提供与GAM模型相当的准确率。与RiskCalc模型相比,这些替代方法更适合捕获信用风险常见的非线性关系。同时,由于其复杂的“黑盒子”性质,这些方法所做的预测有时难以解释。这些机器学习模型对异常值也很敏感,导致数据过度拟合和违反直觉的预测。此外,也许更有趣的是,我们发现扩展数据集以包含贷款行为变量可以使所有建模方法的预测能力提高10个百分点以上。 虽然我们研究的方法都有其优点,并且具有可比较的准确性水平,但我们相信,为了提高默认预测准确性并扩大信用风险建模领域的总体范围,我们应该将重点放在数据维度上。除财务报表和贷款支付行为数据外,交易数据,社交媒体数据,地理信息和其他数据等附加信息可能会增加大量的洞察力。我们必须收集更多不同的非传统数据,以进一步完善和改进我们评估风险的方法。
99科技网:http://www.99it.com.cn
