机器学习:信用风险建模中的挑战,教训和机遇(2)
扫一扫
分享文章到微信
扫一扫
关注99科技网微信公众号
图1 统计模型VS. 机器学习 在这个模拟示例中,第一个图表显示了数据点基于X和Y的实际分布,而红色的点则被分类为默认值。我们可以把它和地理地图联系起来,其中X轴是经度,Y轴是纬度。红色区域代表高风险人口统计,我们看到更高的违约率。如预期的那样,线性统计模型不适合这种复杂的非线性和非单调行为。随机森林模型是一种广泛使用的机器学习方法,具有足够的灵活性来识别热点,因为它不限于预测线性关系或连续关系。机器学习模型不受传统统计模型的一些假设限制,可以产生更好的人类分析师无法从数据中推断出的洞察力。在此,预测与传统模型形成鲜明对比。
机器学习模型不受传统统计模型的一些假设限制,可以产生更好的人类分析师无法从数据中推断出洞察力。
机器学习方法现在让我们看看三种不同的机器学习算法:人工神经网络,随机森林和提升。
人工神经网络人工神经网络(ANN)是生物神经网络的数学模拟。它的简单形式如图2所示。在这个例子中,有三个输入值和两个输出值。不同的转换将输入值链接到隐藏层,将隐藏层链接到输出值。在底层数据上,我们使用反向传播算法来训练人工神经网络。由于许多隐藏层和神经元的存在,神经网络可以很容易地处理解释变量的非线性和交互效应。
图2 人工神经网络 随机森 林 随机森林结合了决策树预测器,使得每棵树依赖于独立采样的随机向量的值,并且具有相同的分布。决策树是随机森林的最基本单位。在决策树中,输入被输入到顶部,并且当它遍历树时,数据被分成越来越小的子集。在图3所示的例子中,树决定了基于三个变量的违约概率:公司规模;利息,税收,折旧和摊销前利润(EBITDA)与利息费用的比率;以及流动负债与销售额的比率。方框1包含初始数据集,其中39%的公司是违约者,61%是非违约者。EBITDA利息支出比率低于2.4的公司进入方框2.方框2占总数的33%,其中100%由违约者构成。其橙色表示较高的违约风险,而蓝色表示较低的违约风险。随机森林方法结合了许多树的预测,并且最终决策基于独立的决策树的输出的平均值。在这个练习中,我们使用几棵树的bootstrap聚合作为一个简单的基于树的模型的改进。
图3 随机森林
BOOSTINGBoosting类似于随机森林,但基础决策树是根据其性能加权的。考虑一下盲人和大象的寓言,其中要求男人触摸大象的不同部位,然后构造完整的图像。盲人分成六批发送。第一组被引导到随机选择的点,并且每个人的(部分)描述评估它与实际描述的匹配程度。这个小组恰好给出了只有躯干的准确描述,而对身体其他部分的描述是不准确的。注意到不完整的部分,当第二批盲人进入房间时,他们被引导到这些部分。剩下的批次重复这个过程。最后,通过按照它们的精确度对这些描述进行加权组合,并且在这种情况下也将身体部位的尺寸加以组合。最后的描述 - 组合 - 很好地描述了大象。 在Boosting中,每一个决策树都与一群盲人相似,对大象的描述与解决预测问题是同义的。如果一棵树将违约者误认为是非违约者,反之亦然,那么随后的树会对错误分类的观察结果给予更多的重视。这种给错误分类区域增加权重(或在发送新组时增加方向)的想法是随机森林和增强之间的差异。
99科技网:http://www.99it.com.cn
