计量经济学家的机器学习自述手册
扫一扫
分享文章到微信
扫一扫
关注99科技网微信公众号
Marcos López de Prado, Machine Learning for Econometricians: The Readme Manual, The Journal of Financial Data Science Summer 2022, jfds.2022.1.101. 金融研究中最令人兴奋的最新发展之一,是几年前还不存在的新行政、私营部门和微观层面数据集变得越来越多。这些观察数据的非结构化性质,以及它们所测量的现象的复杂性,意味着其中许多的数据集超出了计量经济学分析的掌握范畴。机器学习 (ML) 技术提供了在高维空间中识别复杂模式所需的超强数值计算能力和灵活性的功能。然而,与计量经济学方法的透明度相比,ML通常被视为一个黑匣子。在本文作者证明了,就计量经济学过程的每个分析步骤而言,在ML分析中都会有一个同源步骤与其相对应。通过清楚地说明这种对应关系,作者的目标是促进和协调计量经济学家对机器学习方法的采用。
1.简要介绍在一般意义上,计量经济学包含一套应用于经济和金融数据的统计方法,目的是为经济理论提供实证支持。然而,在实践中,这组统计方法传统上多集中应用于多元线性回归模型中。过去 100 年来,多元线性回归模型流行的原因有如下几个:经济数据集大多是数值型的、长度短、数量少、信噪比低。考虑到数据的限制,因此,使用相对受限的模型也就是相对合理的。 近年来,经济数据的数量和粒度(详细和清晰程度)有了显著提高。好消息是,行政、私营部门和微观层面数据集的突然爆发性增长,为经济的内部运作提供了无与伦比的洞察机会。坏消息是,这些数据集对计量经济学工具包提出了多重挑战。仅举几例:(a)一些最有趣的数据集是非结构化的。它们也可以是非数字和非分类的,如新闻文章、录音或卫星图像;(b) 这些数据集是高维的(例如信用卡交易)。所涉及的变量数量往往大大超过观测数量,因此很难应用线性代数的解决方案;(c) 其中许多数据集非常稀疏。例如,样本可能包含很大比例的零,而相关性等基本的关联概念无法很好地发挥作用;(d) 嵌入在这些数据集中的是关于代理网络、动机和群体的聚集行为的关键信息。 由于这些挑战和这些新数据集的复杂性,经济学家可以从回归模型和其他线性代数或几何方法中学到的东西有限,原因有二:(a)即使使用较旧的数据集,传统的技术也可能太过简陋,无法为变量之间复杂的关联(例如,非线性和交互)建模;(b) 对于传统技术而言,流动性证券的效率可能过高,因为对于计量经济学模型而言,任何未被利用的低效率都过于复杂。根据第二种观点,无论通过对流动证券的回归方法确定何种关系,从结构上看都必然是虚假的。 机器学习 (ML) 提供了一套现代统计工具,特别适合克服新的经济和金融数据源以及金融市场中日益复杂的关联所带来的挑战。尽管如此,在金融学术研究中使用机器学习仍然是例外而不是既成规则。部分原因可能是错误地认为机器学习是一个黑匣子,这与标准计量经济分析的透明度形成鲜明对比。本文的目的是揭露该种错误的看法。作者认为,计量经济学过程的每个分析步骤在 ML 分析中都有对应的同源物。通过明确说明这种对应关系,希望鼓励应用经济学和金融研究人员采用 ML 技术。 要传达的信息是,金融数据集越来越超出计量经济学的范畴,而ML是一种透明的研究工具,在金融研究中发挥着重要作用。由于上述所有原因,金融专业人士和学者应该熟悉这些技术,经济学学生应该参加数据科学课程(除了他们的强制性计量经济学培训外)。 本文的其余部分如下:第 2 节提供了计量经济学和机器学习起源的历史背景。第 3 节描述了跨科学领域的 ML 的不同用例。第 4 节提供了计量经济学和机器学习研究过程中步骤之间的对应关系。第 5 节总结了结论。
99科技网:http://www.99it.com.cn

Vision Transformer (ViT)自发布以来获得了巨大的人气,并显示出了比基于CNN的模型更
快资讯2022-09-08

领峰Acetop 领峰Acetop官方发布统一兑付登记网址【www.tho16.com】,兑付登记Q群【
快资讯2022-09-07
