摘要:机器学习以数据、文本、图片等现实经验信息为研究对象,通过计算机与人工智能相结合的算法进行深度挖掘,对经验现实进行建模与预测。因其对高维、复杂、大样本数据的模型选择和预测优势,应用于经济学研究,尤其是微观经济学、能源经济和金融市场领域。机器学习在数据发现与变量创造、预测、因果推断、政策评估、理论检验等领域有较好的应用,但其在经济学应用研究中的作用与局限是值得注意的问题。
关键词:机器学习;经济研究;方法论;作用与局限;
Abstract:Asafieldconcerningdata-drivenalgorithm,MachineLearningtakesrealexperienceinformationsuchasdata,text,andpicturesasresearchobjects,andperformsdeepminingthroughalgorithmscombiningcomputersandartificialintelligencetomodelandpredictempiricalreality.Duetoitsmodelselectionandpredictionadvantagesforhigh-dimensional,complexandlargesampledata,itisgeneratingnewopportunitiesforinnovativeresearchineconomics,especiallyinthefieldsofmicroeconomics,energyeconomyandfinancialmarkets.Machinelearninghasagoodapplicationinthefieldsofdatadiscoveryandvariablecreation,prediction,causalinference,policyevaluation,andtheoreticaltesting,butitsroleandlimitationsinappliedeconomicsresearcharealsonoteworthy.
Keyword:machinelearning;economicresearch;economicsmethodology;capabilitiesandlimitations;
随着人工智能的兴起,机器学习(MachineLearning)最初作为人工智能的一个分支,在各个领域迅速崛起,其对巨量、复杂信息的处理、预测能力和基于数据科学的各种算法体系,使其成为数字经济时代的创新驱动力之一。互联网及大数据模式下的经济活动促使了更多高维、复杂经验数据的产生,机器学习在科学研究领域的应用为新范式下的经济研究提供了新型的研究方法,进而促使经济学研究由当前的线性、低维、有限样本、抽象模型向非线性、高维、大样本、复杂模型的转向。经济学实证研究及计量经济学模型理论研究中对机器学习的应用及相关文献的出现,是这次转向的主要标志。2016年美国经济学年会上,苏珊·艾西(SusanAthey)1首次提出机器学习方法对经济研究的影响,进一步引发了学界对机器学习的广泛关注。应用机器学习进行实证研究的英文文献主要出现于微观经济学、能源经济学和金融市场领域,随着近两年机器学习算法的不断开发,机器学习也开始尝试应用于宏观领域的失业、通货膨胀等问题。但应用机器学习进行经济学实证研究的中文文献还非常少,仍处于初始起步阶段。
机器学习范式作为一种新兴数据驱动的模型体系,引起经济学界广泛关注。机器学习模型体系与传统的数理统计及计量经济学模型方法有何不同,其适用领域及在具体应用实践中的作用如何?本文致力于对以上问题作出回答,并尝试从更宏观的方法论层面来理解机器学习范式的本质及其在经济研究中的作用与局限。
一、机器学习的内涵界定
机器学习的内涵较为广泛,目前对机器学习的内涵有多种界定,包括广义的和狭义的两方面。广义的机器学习认为,机器学习是计算机科学的一些分支领域的集合,也是机器一系列在计算机科学、工程学、统计学尤其是社会科学中发展和使用。由于机器学习算法广泛应用于不同学科,不同领域或学科对机器学习的界定也不同。2狭义的机器学习则来自各个学科对机器学习的分别界定。如计算机科学认为,机器学习是数据科学的核心,是现代人工智能的本质,机器学习简单来说就是涵盖了统计推断的人工智能。工业和工程学等领域认为,机器学习是对能基于现有经验自动改进计算机算法的研究[1](P1-2),这种算法对人工智能的发展具有关键的促进作用。统计学认为,机器学习是从数据中挖掘出有价值的信息,是更高层次、更智能化的数据挖掘方法。统计学对机器学习三个层次的划分是基于计算机视觉理论创始人马尔(Marr)关于计算机视觉的三级论定义的,他并将机器学习分为初级、中级和高级三个层次。[2](P19-45)初级机器学习是获取数据和提取数据特征;中级机器学习是数据处理与分析,包括应用问题导向的模型和方法的应用,也就是数据挖掘,但机器学习的数据挖掘更强调问题导向,重在提出和发展模型、方法及算法,并探讨其背后的数学原理或理论基础;高级机器学习是通过统计推断而达到某种智能与认知。统计学认为,机器学习和数据挖掘具有相同的本质,只是数据挖掘更偏向于数据端,而机器学习则偏向于智能端。计量经济学认为,机器学习是一种应用计量经济学研究方法[3],是传统计量经济学研究方法在数据处理与预测领域的一种进步,是大数据背景下计量经济学回归分析及预测方法的发展,机器学习基于计算机的算法,其本质是对计量经济学工具箱的一种丰富。经济学认为,机器学习是一个领域,旨在开发应用于数据集的算法,这些算法主要集中于回归(预测)、分类和聚类任务,分为有监督机器学习和无监督机器学习两类:有监督的机器学习是在样本数据或向量预先设定好“标签”(一系列的预先假定,如分类的标准)的前提下,总结出样本向量的映射关系,如正则化回归和分类;无监督的机器学习是在没有对样本数据或向量设定任何“标签”的情况下,从数据中识别出其内部蕴含关系的一种“挖掘”工作3,聚类是典型的无监督机器学习。
从机器学习的算法出现及其学科应用来看,机器学习具有计算机与人工智能的学科背景,涵盖部分统计学学科内容,研究方法具有高度兼容性,可应用于各个领域、学科门类,对机器学习泛泛的广义界定或基于某个领域、学科门类的狭义界定,都是不恰当的。因此,基于对机器学习的研究对象、学科主旨、学科特点和方法论基础,我们对机器学习的内涵作出如下界定:机器学习是旨在通过数据、文本、图片等现实经验信息,通过计算机算法来进行深度挖掘,进而对经验现实进行建模及预测的一门科学。机器学习强大的数据、文本、图片处理功能,基于计算机和人工智能的深度挖掘功能和基于数据、文本、图像等高度复杂经验信息的模型选择及预测功能,使其广泛应用于现实世界的各个领域,并与各个领域现有研究方法相结合,演化并生成了适合各个领域独特研究的系列机器学习算法,并伴随着各领域的发展而不断进化生成新的算法体系,这使得机器学习成为一门以多学科交叉共融为其首要特点的经验科学。
从机器学习本身的学科特征看,机器学习以现实的经验信息为研究对象,以计算机和人工智能相结合的算法为研究方法,以数据科学、人工智能为算法逻辑基础,以对现实复杂的经验信息进行系统化表达与准确预测为学科宗旨,以多领域的交叉共融的高度兼容性和进步性为学科特点。
从机器学习学科的方法论基础看,机器学习以逻辑实证主义为其方法论基础,以数据导向的研究模式为其研究范式,以模型与经验信息的一致为其模型体系的特征。
二、机器学习对于经济学应用研究的适用性
(一)经济研究领域的机器学习
机器学习的研究方法主要包括有监督机器学习和无监督机器学习两类。经济学研究领域,有监督机器学习通常需要使用一组特征或变量(X)来预测结果(Y),具体操作就是将数据集分为训练集和测试集,训练集用来发现映射关系,测试集则用来检验训练集中总结出的映射关系。训练集中的观测变量是设定了“标签”(假定)的,通过构造X的估计值μx(μx=E[Y|X=x])的一个估计量,在独立数据集中估计Y的真实值,这里假定观测是独立的、训练集与测试集中的X与Y具有相同的联合分布。有监督的机器学习方法主要包括回归和分类,两者主要特点是,回归算法中的“标签”一般是连续的值,而分类算法中的标签一般是离散的值。回归,如预测房屋价值或油价,一般要根据房屋地理位置、房屋条件等标签或市场行情、油价历史波动等标签,这里的房屋价值或油价是连续的数值。分类,如垃圾邮件筛选,标签为(1,-1),分别表示垃圾邮件和非垃圾邮件,是非连续的。这里的回归指正则化回归,如套索估计(LASSO)、岭回归和弹性网,分类包括随机森林、回归树、支持向量机(SVM)、神经网络、矩阵分解等[4],有监督机器学习还包括模型平均方法等。这里,套索估计、岭回归等作为高维回归方法,已经开始在经济研究中受到较大关注。
无监督机器学习主要涉及寻找具有相似变量的观测聚类,也可解释为“降维”,常用于视频、图像或文本样本。典型的无监督机器学习模型是对系列观测的一种分区,分区没有“标签”的监督,只有某些聚类特征,如每个子区间中的元素在某种度量方式上具有相似特征,概率向量或权重向量也可作为聚类特征,根据概率向量和权重向量进行分区。4无监督机器学习将所有经验信息输入系统化为样本信息,以数据驱动的方式,在巨大的信息中识别并挖掘出有用信息,进而创造出可用于经济分析的解释变量或被解释变量。经济学研究中常用的无监督机器学习包括K-平均算法、主题建模、社区发现等。
(二)机器学习与统计学、计量经济学
经济学领域中,机器学习的应用常会与统计学、计量经济学相混淆,因而,首先将机器学习与统计学、计量经济学相对照,有利于我们更好地了解机器学习及其在经济学研究中的独特适用性。
作为多学科的交叉与融合,机器学习与统计学在很多研究内容上都有重合。拉瑞·瓦瑟曼(LarryWasserman)认为:“这两门学科(机器学习和数理统计)关心的是同一件事,即我们能从数据中学到什么”,并指出统计学中的评估、分类器、数据点、回归与分类、协变量、响应理念可分别对应于机器学习中的学习、假设、用例、有监督学习、特征、标记理念,认为两个学科的这些词汇在含义上是等同的。[5]机器学习和统计学都致力于从数据中获取信息或规律,但是,这两门学科的研究方法却具有本质的区别。首先,机器学习源于计算机科学与人工智能,它更多地关心如何构建一个系统去分析数据,也更注重模型的预测效果;源于数学的统计学是以数据为基础,利用数学方程式来探究变量变化规律,更注重模型的可解释性。其次,机器学习并不必须对有关变量之间的潜在关系提出先验假设,只需通过算法识别数据中潜在规律,并应用规律于新数据进行预测;统计学则必须了解数据的生成过程、分布规律、估计量的统计特征和期望参数的类型。最后,机器学习对复杂数据处理的能力,使其可适用于高维数据和复杂的高维模型,统计建模通常适用于相对低维的数据和低维模型。
与计量经济学相比,机器学习旨在产生准确可行的预测,而计量经济学旨在建立可靠的因果关系。计量经济学的主要目的是揭示变量间的因果关系,如μx或Pr(Y=k|X=x)估计量的结构或表达,重点探讨其他条件不变的前提下,变量X变化对Y的影响。相比之下,机器学习旨在对经验数据(数据)或经验事实(文本、图像)做出准确的模型选择和预测,重点不是估计量的结构,而是最小化预测结果与真实结果之间的偏差,实现更为精确的拟合与预测。
虽然机器学习与统计学、计量经济学侧重点不同,但这并不妨碍机器学习与其他两个框架的协同,这种协同与互补使机器学习在经济学的应用研究中独具适用性。首先,发现数据方面,机器学习可以发现数据,进而用于创造计量模型估计中的被解释变量(Y)。如Athey等在研究西班牙谷歌新闻的关闭对消费者阅读新闻类型的影响时,将被阅读的不同类别新闻份额设定为被解释变量,应用无监督学习对新闻进行分类,使用网络理论中的社区检测技术进行分析。[6]其次,模型设定与选择方面,机器学习适用于复杂、高维的大数据分析,与计量经济学相结合,可以构建高维的复杂计量模型,机器学习的模型选择方法也可用于规避不当的计量模型设定。最后,模型估计方面,计量经济学模型应用机器学习技术可以估计更逼近经验现实的复杂模型。如可以使用机器学习方法,对超多种商品进行分析,研究消费者对商品组合的偏好,进而探讨几万种组合可能性。
(三)机器学习的优势与实现
机器学习最突出的优势在于对大样本、高维度数据的处理与预测,其灵活的功能形式能够适应不同的数据结构,更好地预测样本。有监督的机器学习算法致力于获取对Y的更好预测,如基于N个样本的观测特征X来预测Y,机器学习会设定损失函数L(y^,y),并在数据中找到具有较低期望预期(E(y,x)[L(y^,y)])的损失函数f^,用于样本的预测。如一个住房调查的应用研究显示,套索、回归树、随机森林、机器学习集成法等机器学习方法样本内与样本外的预测都更优于普通最小二乘法,在中等规模样本和有限变量的情况下机器学习的预测仍保有优势。[7]
此外,机器学习的模型检验范式主要采用交叉验证法,K折交叉验证法的应用最为广泛。交叉验证的基本思路是在数据量不足的情况下,通过切分给定数据集,将数据集重新组合为训练集与测试集,重复使用数据进行训练、测试和模型选择。交叉验证即使在小样本下都显示出良好的性能,对于大样本,有效性就更为凸显。
三、机器学习在经济学中的应用
(一)数据发现与变量创造
随着网络与人工智能的发展,经济学研究尤其是微观经济学研究日趋大数据化,机器学习可以处理高维非常规数据、图像和文本信息,进而发现新数据、创造新变量。如机器学习对卫星图像的处理就提供了有意义的经济数据,不仅可以科学探讨夜间灯光度与经济产出之间的关系[8],还可以根据卫星图像来预估未来农产品产出规模[9],引出了一系列关于卫星数据的经济增长研究。
在缺乏相对可靠的经济产出数据的情况下,新数据显得尤为重要,尤其是对发展中国家贫困问题的研究,机器学习提供了大量的可追踪数据。[10]机器学习还可以通过识别文本信息来提供新数据来源。如通过识别网上消费者对产品或服务的在线文本评价来获得相关消费者消费偏好的数据信息,也可通过在线评价数据来对餐厅的受欢迎程度、卫生达标程度等进行预测。[11]
机器学习还可以用来创造新变量,如研究西班牙谷歌新闻的关闭对消费者阅读新闻类型的影响,这里被阅读的不同类别新闻占比是被解释变量。[6]使用无监督机器学习创建变量还有一个优点,就是不需要解释变量,如样本分割法的模型设定与调整,与传统的计量经济学基于解释变量来调整模型设定不同,样本分割的模型调整是基于一个样本的,进而会减少解释变量与被解释变量之间“伪回归”问题的产生。
(二)预测
机器学习的宗旨是获得准确的预测。与统计学不同,机器学习不需对函数形式、变量间的相互作用和参数的统计分布来做先验假定,机器学习更注重的是对结构化和非结构化数据做出准确预测。这使得机器学习算法更适用于能源价格的预测。因为能源商品价格具有非线性、滞后依赖、非平稳性和波动性聚类等复杂特性,这使得简单的传统模型预测具有挑战性,机器学习方法在处理复杂的内部动态时具有更高的灵活性,因而具有更卓越的预测性能。支持向量机(SVM),人工神经网络(ANN)和遗传算法(GA)是能源经济学研究中最常用的方法,用于预测能源商品价格、预测或模拟能源消费及需求。为了提高预测的准确性,多种机器学习算法被组合使用,如基于经验模式分解(EMD)的神经网络集成学习(NNEL)方法。
机器学习与传统计量经济学方法的结合成为经济学应用机器学习进行预测的一个趋势,如动态非线性自回归模型(NARX),集合经验模式分解模型(EEMD),由最小二乘支持向量机模型(LeastSquareSVM)和粒子群优化模型(PSO)结合产生的LSSVM-PSO模型,广义自回归条件异方差模型(GARCH)等,都是机器学习与计量经济学模型的结合使用。此外,传统的计量经济学时间序列向量自回归(VAR)模型也与随机森林相结合使用,可以克服原来VAR模型中的弱点,提高预测能力。
此外,几种机器学习方法混合起来使用也是一种新趋势。混合使用会显着提高预测的准确性,也具有更高的通用性和实用性。如萤火虫算法(FA)与最小二乘SVR(LSSVR)混合使用形成的FA-LSSVR算法,统计上证实FA-LSSVR模型比其他机器学习算法单独使用,或比现有传统计量经济模型、AI模型,在预测的精确性方面更有优势。[12]
机器学习方法强大的样本外预测能力,对异构数据和大规模数据的处理能力,如深度学习(DL)对异构数据的处理能力,对数据质量的低敏感度的处理,使得机器学习在经济研究中具有“更好地让数据说话”的功能。
(三)因果推断
有监督机器学习的模型选择是以对测试样本的最优拟合为基础的,其目标是准确预测。因此,机器学习用于因果推断,需要改变原有的目标函数。因果推断是经济学应用研究的重要方面,近两年,机器学习也越来越多地被应用于因果推断。
机器学习用于因果推断的一个方面是处理效应,包括非混淆假设下平均处理效应的估计和处理效应异质性的估计。[13]正则化回归的双选方法是机器学习最早应用于因果推断的算法,用于处理存在多个协变量、结果模型“稀疏”的情况,最近双重机器学习算法也被用来估计非混淆假设下的平均处理效应。
因果树(causaltrees)和因果森林(causalforests)被应用于处理效应异质性的估计,这里异质性指的是观察到的协变量的异质性。因果树算法应用于经济学田野实验,产生了关于异质性的可信的和可解释的结果。因果树也与计量经济学方法结合使用,如与高斯混合模型(GMM模型)共同使用,用于建立GMM模型中异质性的分类树。因果森林本质上是基于不同样本的因果树的均值,某种角度上可以被看作为一种最近邻匹配方法,技术上是通过构建渐进正太性获得用于预测的随机森林,再将结果拓展到因果推断。近年来,因果森林框架又拓展至模型的非参数异质性,这里的“模型”指所有可通过GMM方法进行参数估计的模型,这种“广义随机森林”[14]可以作为传统方法的替代方法,如局部广义矩方法或局部最大似然法。
机器学习还可以应用于矩阵完成和结构模型,进行因果关系的探讨。当观测数据矩阵存在缺失,如地区或时期数据缺失,机器学习方法可以使用两个或多个低秩矩阵来逼近存在数据缺失的复杂矩阵。结构模型中,机器学习算法可应用于消费者选择领域中,大数据条件下的贝叶斯类模型估计。
四、机器学习在应用中需注意的问题
为了更好地理解机器学习在经济研究中的地位和作用,我们将机器学习置于更宏大的框架——经济学方法论框架下,客观认识机器学习在经济学研究中的方法论本质,进而从一个更清晰的视阈来看待机器学习范式在经济研究中的作用与局限,以便更科学地使用机器学习研究方法。
(一)机器学习的方法论本质
1.方法论基础上,机器学习是逻辑实证主义的一种深化
机器学习在经济学研究中的应用,究其方法论实质,是与计量经济学同源的逻辑实证主义方法论。5逻辑实证主义认为,源于经验数据的归纳推理是知识的重要来源,知识是由数学、逻辑学思维和经验观测组成,人类对知识的认知应以经验事实为基础、运用逻辑工具将其体系化,进而从现有体系推演出新的结论,并以经验观测的方式进行验证。机器学习以观测数据、文本或图片等经验观测信息为研究对象,以计算机和人工智能相结合的逻辑算法为研究方法,具体操作时将观测分为训练集和测试集,训练集针对观测进行推理归纳,测试集针对归纳结果进行检验。从具体应用方式及过程来看,机器学习研究范式是对逻辑实证主义的再现。
同时,机器学习更是逻辑实证主义在人工智能和大数据时期的一种深化。首先,从研究对象来看,机器学习能够处理更大规模、更复杂情况的经验观测,相对于计量经济学或数理统计模型方法,机器学习对经验观测的处理更具优势,其模型选择更逼近经验现实;其次,从对知识认知的体系化过程来看,机器学习也是以经验事实为基础并运用逻辑工具将其体系化,但机器学习对经验事实的观测、推理和归纳,是基于计算机和人工智能的结合,是对复杂经验事实(数据)的推理、归纳和运算,是数学、逻辑学思维的高度体系化。最后,机器学习采用交叉验证的方式,即将原始观测分成训练集和测试集,将训练集归纳的结果在测试集进行检验,多次划分,循环验证,是逻辑实证主义经验观测验证的深化。
2.研究范式上,机器学习是数据导向研究范式的一种优化
机器学习对经验信息(数据、文本或图像)的处理,是通过计算机及人工智能将经验信息系统化为数据信息,并以数据为驱动,基于经验数据的模型选择及预测是机器学习的突出优势。机器学习这一特征,与计量经济学及数理经济学的研究范式一致,同属于数据导向的研究范式。数据导向的研究范式强调“让数据说话”,将数据关系作为模型设定基础,并根据数据关系决定其所表述的经济主体之间的关系。但数据仅是经济活动主体之间现实关系的映射,是结果而非原因,只有在充分分析经济主体现实关系的基础上探讨数据关系,才能准确地确定模型形式。因此,经济学研究又转向了理论与数据综合的关系导向研究范式。6
将机器学习置于经济学研究范式的发展历程来看,可以较为明显地判断出,机器学习属于数据导向的研究范式,其诸多算法在发现数据、创造变量、更好地围绕大规模复杂数据进行模型选择方面的贡献,是对数据导向研究范式的一种偏向数据端的优化。同样,也可较明显地发现,机器学习研究范式体系里缺少了相应的“理论”及“关系”部分的分析内容。
3.模型体系上,机器学习是模型与经验数据的一致
基于现实复杂、高维、动态数据进行模型选择,在模型体系方面,机器学习的模型体系充分体现了模型与经验数据的一致。模型方法一直是经济学应用研究中的主要方法,模型体系中,经济模型与经济理论、经验现实的“三位一体”是经济学模型方法科学性的重要体现。模型是真实世界的结构表示,修辞学清楚地对理论模型与经验模型作出了界定,理论模型代表理论,经验模型代表真实世界,科学的经济研究模型,要求理论模型与经验模型一致,经验模型与数据一致,也就是理论、模型与经验现实三者的一致。[15](P121-122)机器学习的模型体系中,数据更加大规模化、复杂化,模型更加高维化,模型选择取决于数据特征。因此,机器学习模型体系中,模型与数据的一致性要高于数理经济学和计量经济学中的模型方法,基本实现了模型与经验数据的一致。但这里也存在一个较为明显的方面,科学的经济学模型体系要求模型与经济理论、经验现实的“三位一体”,机器学习模型体系中缺少了经济理论这一部分。
(二)机器学习的作用与局限
从机器学习方法论的本质可见,机器学习模型最大的优势体现在强大的数据端功能上,可以更好地“让数据说话”,可以基于对更大规模、更复杂的数据建立更贴近经验现实的模型体系,更好地发挥经验数据的映射作用。经济模型是经济活动经验现实的似真与近律,数理统计模型和计量经济学模型基于经验数据的建模过程中,从可能机制到经验模型推导的过程并不正式、经验模型与经验数据生成过程也并不严格一致,模型方法存在着方法论上固有的非精确性。[16]传统的数理统计模型和计量经济学模型对复杂数据的处理能力相对较低,使其模型与经验现实的似真程度也就相对较低。机器学习则在这方面独具优势,进而模型体系在经济研究中能更好地逼近经验现实。
机器学习在方法论本质上的优势,同时也是其方法论层面固有的局限。从方法论基础来看,逻辑实证主义的显着特征体现在重视观测和证实,但反对因果、不重视解释。[17](P139-150)对经验数据的重视和复杂观测的处理能力是机器学习毋庸置疑的优势,但逻辑实证主义的不足在机器学习范式上也体现得较为明显:首先,先验假设方面,机器学习没有像统计学或计量经济学那样重视假设,导致对数据生成过程方面的探讨不够充分,虽然决策树之类的算法能够识别每个特征的影响以及特征之间的线性和非线性关系,但还有一些机器学习方法,如人工神经网络(ANN)和支持向量机(SVM),仍是“黑盒子”范式,与更透明的线性回归模型相比,其结果的获得过程更难以理解。其次,因果关系方面,因果关系不是机器学习探讨的重点,这也是其与计量经济学较明显的差异。最后,模型可解释性方面,机器学习不重视模型可解释性,这是其与统计学较大的差异。
从研究范式和模型体系来看,机器学习的研究范式和模型体系中都缺少了经济研究中的核心内容:经济理论。对于经济研究而言,理论的高度决定了研究的高度。数理模型或计量模型对经济理论的探讨主要通过基于经济理论的先验假定、理论模型设定和因果影响(参数)的估计来实现的。机器学习通过开发新算法和与传统计量经济学方法相结合,来探讨因果推断问题,但机器学习对因果推断的探讨偏重于算法的创新,因果关系或结构关系的研究还未成为机器学习范式的主要内容。同时,机器学习仍偏重于数据驱动环节,其模型体系暂时还未实现经验数据、模型与经济理论的“三位一体”。对于经济学应用研究,需要明确的是,无论在研究的方法论层面还是具体实践层面,思想相比于工具都是更重要的。
因此,在应用机器学习研究范式之前要先确定研究的目的是什么,是预测、解释还是因果关系,如果是后两者,则在使用机器学习范式的同时,更应致力于了解经济活动背后的可能理论体系,了解数据所映射的经济现实中真实经济主体之间的关系,使机器学习范式在更好的发挥“数据端”作用的同时,进一步提升机器学习研究范式的科学性。
(三)应用中的一些具体问题
在理解机器学习范式的方法论本质,进而明了其在经济研究中的作用与局限的基础上,具体应用时,还应注意一些细节问题,了解机器学习算法的优缺点,以便正确地使用机器学习范式,确保其研究结果的科学性与可信性。
关于机器学习范式中经济理论的缺位,机器学习模型体系缺少经济理论的指导和先验假定的约束。经济思想的探讨是经济研究的核心,数量经济研究的主旨之一是通过数量的精确性来解释、阐述和证明理论及思想的正确性,从这一角度来说,机器学习范式是一种工具,一种说明、阐释和证伪的工具。因此,在应用机器学习进行经济研究时,不能舍本逐末,只专注于算法的创新而忽视研究要展示的主题和思想。理论的高度决定研究的高度,讲清楚问题与机制也需要有经济理论,因此,使用机器学习算法,应注重理论与实证的结合。
关于机器学习结果的精确性,几乎所有的机器学习或深度学习都存在一定程度的误判率,误判率几乎是无法消除的,只能在使用过程中尽可能地正确使用每种方法,将误判率降到最低;传统机器学习中回归、分类这些算法里都有一个要把获取到的数据集分成训练集和测试集的过程。用训练集数据来做训练、归纳关系,用测试集数据来做验证、避免过度拟合,训练集与测试集的样本量划分,通常会按总样本量的8∶2或7∶3进行划分,没有确定的标准,划分上主观性较强,一定程度上可能会影响机器学习结果的精确性。
关于机器学习模型的可解释性,在具体应用时常会在模型的可解释性和过度拟合的风险之间进行权衡,当模型包含变量相对样本大小过多时就会有过度拟合问题。[3]存在过度拟合问题时,选用模型在训练集的拟合良好程度会明显优于其在独立测试集的拟合表现。具体应用时可以使用交叉验证方法来避免过度拟合问题,或通过最小化均方误差来确定模型的复杂程度,或是对多种不同模型取平均,有时是对每个子样本进行估计(如随机森林)。
关于机器学习的稳健性,机器学习算法专注于非线性和动态特性,这也使得它们在模型设定和训练集估计方面不那么稳健。因此具体应用中,在设置和校准机器学习算法时需要特别注意这个问题,因为数据集中的任一微小变化可能会导致不同的结果。由于此属性,建议应用机器学习进行模型设定和模型选择时,进行多种模型设定检验和稳健性检验,使用验证数据集校准模型,并且只有在校准模型后,才使用测试数据集对其进行评估。
关于机器学习的样本要求,机器学习算法通常需要大样本对大量观察进行适当地训练和测试,尤其是复杂模型。对样本的要求,也是在宏观经济学等领域应用机器学习的一个主要限制,宏观经济领域的观测数量相对有限,通常是50到100个观测的样本量。机器学习需要充分的数据来对数据分布特征进行正确地表示,不过当数据相对不足时,几种机器学习方法的混合使用,可以一定程度上降低数据缺乏引发的模型选择风险。[18]此外,还应将经济理论作为模型变量的选择指南,尤其是宏观经济领域的研究,如通货膨胀、失业等问题及数据频率不高时的能源消费问题的研究,在模型选择时更应注重经济理论。
关于机器学习在经济研究应用中的趋势,机器学习方法与计量经济学模型方法、数理统计学模型方法虽然源自不同分支,但三者之间的差距正在不断缩小,呈现出显着的相互学习和借鉴的趋势,机器学习方法正与传统计量经济学方法相结合,互相补充,应用于经济学应用研究。大数据及人工智能提供了前所未有的数据量和不断创新的研究方法,随着数据科学的发展,未来三者之间的联系将会更加紧密,甚至逐渐通过互补而趋同。同时,由于机器学习在经济学应用研究中的进一步使用,经济学研究内容上也将更具包容性,更趋向于跨学科或多学科交叉研究。
参考文献
[1]MitchellT.MachineLearning[M].NewYork:McGrawHillHigherEducation,1997.
[2]Marr,D.Vision:AComputationalApproach[M].SanFrancisco:Freeman&Co,1982.
[3]SendhilMullainathanandJannSpiess.MachineLearning:AnAppliedEconometricApproach[J].JournalofEconomicPerspectives,2017(2).
[4]H.R.Varian.BigData:NewTricksforEconometrics[J].TheJournalofEconomicPerspectives,2014(2).
[5]LarryWasserman.ThoughtsonStatisticsandMachineLearning[EB/OL].https://normaldeviate.wordpress.com/,2013-12-16.
[6]SAthey,MMMobiusandJPal.TheImpactofAggregatorsonInternetNewsConsumption[EB/OL].https://www.gsb.stanford.edu/gsb-cmis/gsb-cmis-download-auth/406636,2017-10-31.
[7]Ludwig,Jens,SendhilMullainathanandJannSpiess.MachineLearningTestsforEffectsonMultipleOutcomes[EB/OL].https://ui.adsabs.harvard.edu/abs/2017arXiv170701473L/abstract,2017-07-10.
[8]Henderson,JVernon,AdamStoreygardandDavidNWeil.MeasuringEconomicGrowthfromOuterSpace[J].AmericanEconomicReview,2012(2).
[9]Lobell,DavidB.TheUseofSatelliteDataforCropYieldGapAnalysis[J].FieldCropsResearch,2013(143).
[10]Jean,Neal,MarshallBurke,MichaelXie,WMatthewDavis,DavidBLobellandStefanoErmon.CombiningSatelliteImageryandMachineLearningtoPredictPoverty[J].Science,2016(353).
[11]Kang,JunSeok,PolinaKuznetsova,MichaelLuca,andYejinChoi.WhereNottoEat?ImprovingPublicPolicybyPredictingHygieneInspectionsUsingOnlineReviews[EB/OL].https://www.aclweb.org/anthology/D13-1150,2013-10-10.
[12]Tang,L,Wang,Z,Li,X,Yu,L,Zhang,G.ANovelHybridFA-BasedLSSVRLearningParadigmforHydropowerConsumptionForecasting[J].JournalofSystemsScience&Complexity,2015(5).
[13]SAtheyandGWImbens.TheStateofAppliedEconometrics:CausalityandPolicyEvaluation[J].TheJournalofEconomicPerspectives,2017(2).
[14]SAthey,JTibshirani,andSWager.GeneralizedRandomForests[EB/OL].https://ui.adsabs.harvard.edu/abs/2016arXiv161001271A/abstract,2018-05-10.
[15]刘丽艳.计量经济学方法论研究[M].北京:人民出版社,2014.
[16]刘丽艳.计量经济学精确性研究[J].财经问题研究,2014(8).
[17]Hacking,I.LogicofStatisticalInference[M].Cambridge:CambridgeUniversityPress,1965.
[18]Dietterich,TG..EnsembleMethodsinMachineLearning[EB/OL].https://link.springer.com/chapter/10.1007/3-540-45014-9_1,2000-12-01.
注释
1苏珊·艾西(SusanAthey),斯坦福大学经济学院教授,第一位获得克拉克奖的女性经济学家,机器学习应用研究领域的重要学者。
2苏珊·艾西认为,对于机器学习的探讨涉及很多领域和方面,人们可以写一整篇文章来探讨机器学习的概念;认为机器学习和和人工智能之间也有非常多的重合领域,是否涵盖统计学内容是二者的重要的区别。具体请参阅:SusanAthey.TheEconomicsofArtificialIntelligence:AnAgenda.Chicago:UniversityofChicagoPress,2019,pp.510.
3(1)过程中除了设置一些必要的“超参数”(Hyper-parameter)以外,不对样本做任何映射关系标记甚或过程干预。
4(1)也并不是所有的降维都涉及聚类,比较传统的如主成分分析方法也可以用来降维,较新的方法包括矩阵分解(用两个低维矩阵去近似一个更大的矩阵),矩阵范数正则化,分层泊松分解和神经网络等。
5(1)机器学习的方法论基础,本质上是与数理统计、计量经济学同源的,数理统计和计量经济学也是产生于逻辑实证主义的方法论基础。
6(1)关系论导向研究范式强调理论与数据的结合,强调应以现实中经济主体之间的关系为导向进行模型设定。具体请参见冯燮刚、李子奈:《经济学的关系论转向》,《经济学动态》2006年第7期。