知情交易概率的估计方法比较
作者:未知摘要:知情交易概率PIN模型的极大似然估计,由于似然函数形式复杂,在最优化过程中很容易出现计算溢出的问题。本文提出了PIN模型的广义矩估计,并通过数值模拟比较了这一新方法和以往文献提出的原始极大似然估计、改进极大似然估计在不同情况下的估计精度。模拟结果表明,在某些情况下,广义矩估计比极大似然估计更容易计算得出也更具有精度优势。本文还提出了用bootstrap方法对广义矩估计结果进行误差修正,进一步提高了?V义矩估计方法对于知情交易概率PIN的估计精度。
关键词:知情交易概率;极大似然估计;广义矩估计;bootstrap误差修正
中图分类号:F830.91文献标识码:A文章编号:1674-2265(2018)04-0064-08
DOI:10.19647/j.cnki.37-1462/f.2018.04.010
在市场微观结构理论中,由Easley等(1996)提出的知情交易概率的测度PIN模型(简称EKOP模型)有十分重要的意义。这是第一个直接对知情交易程度进行衡量的指标,也是目前最具代表性、被研究者使用最广泛的一类模型测度。知情交易概率(ProbabilityofInformedTrading,简称PIN)是指一次交易来自拥有私人信息的知情交易者的概率,也即,某资产来自知情交易者的交易占该资产全部交易的比重。可以认为,PIN值越低,知情交易概率越低,说明该资产的信息不对称程度越低。PIN理论一经提出就受到了广泛关注,常与金融实证领域的研究相结合。例如Easley等(1996)发现交易频繁的股票和交易不频繁股票之间买卖价差的差异可以用PIN来解释。Easley等(2002)把PIN作为第四个定价因子加入Fama和French(1993)的三因子模型中进行回归,发现知情交易概率与价格显著正相关,这说明知情交易概率越高,所要求的风险补偿也越高,因此他们认为PIN可以作为一种风险因子被定价。Duarte和Young(2009)检验了PIN是否被信息不对称或者流动性因素定价等等。
同时,也有一些学者关注PIN模型本身的估计问题。Boehmer等(2007)发现交易数据的买卖方向分类不准确会造成PIN的低估。Easley等(2010)提出一种改进的PIN参数的似然函数,用来提高最优化似然函数时的计算效率。Lin和Ke(2011)发现在数值计算PIN的极大似然估计时可能遇到非常严重的计算溢出问题,尤其是当订单数量特别大的时候,利用近几年股票市场数据,他们发现大约有44%的PIN估计结果受到计算问题的影响。Yan和Zhang(2012)认为在数值求解极大似然估计的时候,边界解会造成PIN的估计偏差,并且认为Easley等(2010)提出的估计有系统性偏误问题。
尽管有很多学者先后提出了改善上述PIN的极大似然估计计算问题的方法,但这些改进思路仍然局限在极大似然估计的框架之下,无法根本解决因似然函数复杂性引起的问题。因此,本文提出采用另一种经典计量方法―广义矩估计来计算PIN的估值。从统计推断的角度来说,广义矩估计和极大似然估计都能得到一致的相合估计,尽管广义矩估计只采用了分布的矩信息,但是在样本足够大的情况下,同样是一致渐近正态的广义矩估计也可以作为极大似然估计结果的有效补充。另外,在计算过程方面,广义矩估计的计算过程更加简便快捷,无论在何种数据条件下,广义矩估计方法都能得到估计结果,不会出现计算溢出问题,并且通过本文的数值模拟研究可以看出,在某些情况下,广义矩估计的精度要明显优于极大似然估计的精度。另外,根据广义矩估计的模拟性质,本文还提出用bootstrap误差修正方法进一步提升广义矩估计的估计精度。
一、EKOP模型及极大似然估计
(一)EKOP模型及知情交易概率PIN理论回顾
Easley等(1996)在Glosten和Milgrom(1985)的市场微观结构理论模型基础上进行扩展,开创性地提出了度量知情交易概率PIN的EKOP模型。该模型认为在满足某些假设条件的交易机制下,根据每个交易日买方发起的订单数量和卖方发起的订单数量,可以直接估计知情交易者提出交易的概率。
在市场微观结构中,EKOP模型考虑了一种简单的序贯结构的交易模型。定义[i=1,…,I]为I个交易日,每个交易日被认为是独立重复地进行交易过程,[t∈[0,T]]代表每个交易日内的连续时刻。模型假设市场中存在潜在的知情交易者,他们和非知情交易者都与一个风险中性且具有竞争性的做市商进行股票和资金的交易。对于任意一只股票来说,在每个交易日开始前,是否有决定资产价值的新消息产生是由概率[α]决定的。假设一天至多只有一个新消息产生,如果有新消息,该消息是利空消息的概率为[δ],是利好消息的概率为1-[δ]。知情交易者可以提前知道消息,而非知情交易者和做市商只能观察到股票价格。在有消息的交易日,当知情交易者捕捉到利好消息时,他们会买进;当他们发现是利空消息时,便会卖出。假设非知情交易者发起的买方订单和卖方订单,以及知情交易者发起的买卖订单,均服从相互独立的泊松过程。非知情交易者提交买方订单的速率均为[εb],提交卖方订单的速率为[εs]。而知情交易者在有利好消息时提交买方订单的速率和有利空消息时提交卖方订单的速率均为[μ]。根据Easley等(2002)的研究,参数[εb]、[εs]和[μ]是日度速率。
图1的树形图展示了任意股票在任意一天的交易过程。树形图的第一个节点代表是否有消息发生。如果有消息发生,第二个节点代表是利好消息或是利空消息。在任意一天,虚线前的三个节点(利好消息、利空消息和没有消息)发生的概率分别为[α(1-δ)]、[αδ]和[1-α]。为交易日选定某一个节点后,买卖订单的到达分别服从相应的泊松分布。在有利好消息的交易日,买方订单的到达速率为[εb+μ]而卖方订单的到达速率为[εs];在有利空消息的交易日,买方订单的到达速率为[εb]而卖方订单的到达速率为[εs+μ];在没有信息的交易日,知情交易者无利可图,不会参与到市场中,此时只有非知情交易者进行交易,所以买卖订单到达速率分别为[εb]和[εs]。从而,知情交易概率PIN定义为
[PIN=αμαμ+εb+εs](1)
式(1)中,[αμ+εb+εs]可以理解为全部订单到达速率,[αμ]为知情交易订单到达速率,因此PIN也可以理解成所有订单中来自知情交易者的订单所占的比率。
(二)PIN的极大似然估计
EKOP模型用一种二维混合泊松结构的模型来表达上述交易机制,而在?@个模型中,可以用每日买卖交易笔数数据对参数[θ=(α,δ,εb,εs,μ)]进行估计,进而通过式(1)得到PIN的估计。
如图1,每一天买卖订单的到来都只能服从三种二维泊松分布(利空消息、利好消息或者没有消息)中的一种。虽然做市商和非知情交易者不知道当天的交易情况具体是服从哪一种泊松分布,但是可以通过一天的交易数据挖掘出市场隐含的信息结构。例如当天如果买方发起交易越多,越有可能是有利好消息发生;而卖方发起交易越多,则越有可能是利空消息。反之,如果当天没有新消息,那么市场上不会有知情交易者参与,这一天的订单量可能相对较少。如果用一个由三组二维泊松分布构成的混合模型来描述这个过程,那么每种情况发生的概率应该由混合模型中的权重系数来决定,因而可以在此基础上构造这个混合模型。
首先,假设在已知第i个交易日的信息情况下,构造似然函数。如果这个交易日在开始前有利空消息放出,那么卖方发起订单的到达速率为[εs+μ],说明知情交易者和不知情交易者都会卖出;而买方发起订单的速率为[εb],因为只有不知情交易者才会买入。因此,在单位时间内,观测到了第i个交易日共有[Bi]笔买方发起订单,[Si]笔卖方发起订单,([Bi],[Si])的似然函数为:
[e-εbεbBiBi!e-(εs+μ)(εs+μ)SiSi!](2)
同理,如果是有利好消息的交易日,观测到第i个交易日共有[Bi]笔买方发起订单,[Si]笔卖方发起订单的信息后,([Bi],[Si])的似然函数为:
[e-(εb+μ)(εb+μ)BiBi!e-εsεsSiSi!](3)
如果这一天没有消息,([Bi],[Si])的似然函数为:
[e-εbεbBiBi!e-εsεsSiSi!](4)
实际上,交易日类型(利空消息、利好消息或者没有消息)并不可知,因此可以将式(2)、(3)和(4)加权平均作为该交易日的似然函数,权重就是发生三种情况(利空消息、利好消息或者没有消息)的相应概率[(αδ,α1-δ,1-α)]。也就是说,在第i个交易日观测到的交易数据([Bi],[Si])的似然函数为:
[fBi,Si|θ=α1-δe-εb+εs+μ*εb+μBi*εsSiBi!Si!+αδe-εb+εs+μ*εbBi*εs+μSiBi!Si!+(1-α)e-εb+εs*εbBi*εsSiBi!Si!](5)
因为交易日之间是独立的,假设观测到I天的交易数据[B=BiIi=1]和[S=SiIi=1],则(B,S)的似然函数为:
[L(B,S|θ)=i=1If(Bi,Si|θ)](6)
Easley等(2002)首先对参数[α]和[δ]进行逻辑变换,对参数[εb]、[εs]和[μ]进行对数变换,从而使得所有参数在实数域上没有限制,接着使用quadratichill-climbing算法来最大化似然函数(6)以求得参数[θ]的估计值,进而得到PIN的估计值。本文将这种方法称为原始的MLE方法。
正如前文提到的极大似然估计存在计算溢出问题,原始的MLE估计非常容易出现计算上溢或者下溢的错误,特别是当买卖订单数量非常大的时候。为了缓解这个问题,Easley等(2010)提出了一种改进的对数似然函数,用于提高计算效率,降低计算问题出现的可能性。将式(6)取对数后,去掉常数项并进行重排,得到对数似然函数,即:
[l(B,S|θ)=i=1I-εb-εs+Milnxb+lnxs+Bilnεb+μ+Silnεs+μ+i=1Iln[α1-δe-μx-MibxSi-Mis+αδe-μxBi-Mibx-Mis+(1-α)xBi-MibxSi-Mis]](7)
其中,[Mi=min(Bi,Si)+max(Bi,Si)/2],[xb=εb/(εb+μ)]
以及[xs=εs/(εs+μ)]。本文把极大化式(7)的方法称为改进的MLE方法。
然而,这种改进对于运算效率的提高,尤其对交易频繁股票的运算效率提高,是非常有限的。实际计算中仍然有很多情况无法得到参数[θ]的估计值,例如Lin和Ke(2011)发现即便是使用改进的MLE方法,PIN的参数估计仍然会遇到计算溢出问题,同时在他们使用的股票数据中,大约有44%的PIN估计值存在低估的偏差,并且这种现象在交易活跃的股票样本中更加明显。Yan和Zhang(2012)发现改进的MLE估计方法经常得到参数的边界解,也就是说,[α]被估计为0或者1,这也会造成PIN估计值的巨大偏差。
二、广义矩估计
为了避免前文提到的极大似然估计存在的各种问题,本文提出了用广义矩估计方法来测度知情交易概率PIN。
按照EKOP模型的理论,单位时间内累计买方发起订单量B和卖方发起订单量S的联合分布(B,S)为混合的二维泊松分布:
[f(B=k,S=l)=α1-δe-εb+εs+μ*εb+μk*εslk!l!+αδe-εb+εs+μ*εbk*εs+μlk!l!+(1-α)e-εb+εs*εbk*εslk!l!](8)
从而,B和S的边际分布分别为混合的一维泊松分布:
[fB=k=l=0∞fB=k,S=l=1-α1-δ?εkbk!e-εb+α1-δ?εb+μkk!e-εb+μ](9)以及
[fS=l=l=0∞fB=k,S=l=1-αδ?εlsl!e-εs+αδ?εs+μll!e-εl+μ](10)
进而可以推出B和S的各阶矩如下:
[EB+S=εb+εs+αμ](11)
[VarB=εb+α1-δ[μ+(1-α1-δ)μ2]](12)
[VarS=εs+αδ[μ+(1-αδ)μ2]](13)
[CovB,S=-α2δ(1-δ)μ2](14)
另外,还可以考虑
[EB2S=εb2+εbεb+αδμ+α1-δμεs(1+2εb+μ)]
(15)
[EBS2=εs2+εsεb+α(1-δ)μ+αδμεb(1+2εs+μ)]
(16)
利用式(11)―(16)这6个总体矩条件,可以对5个参数[θ=(α,δ,εb,εs,μ)]做广义矩估计。用样本矩代替总体矩,则样本矩条件为:
[1Ii=1Ig(Bi,Si;θ)=1Ii=1IBi+Si-(εb+εs+αμ)(Bi-B)2-εb-α1-δ[μ+(1-α1-δ)μ2](Si-S)2-εs-αδ[μ+(1-αδ)μ2]Bi-BSi-S+α2δ(1-δ)μ2Bi2Si-εb2+εbεb+αδμ-α1-δμεs(1+2εb+μ)BiSi2-εs2+εsεb+α1-δμ-αδμεb(1+2εs+μ)=0]
(17)
其中[B=1Ii=IBi],[S=1Ii=ISi]为样本均值。
由此,可以得到参数[θ=(α,δ,εb,εs,μ)]的广义矩估计:
[θGMM=argminθ1Ii=1IgBi,Si;θ'W1Ii=1IgBi,Si;θ](18)
其中[W]为权重矩阵。根据广义矩估计的大样本理论,选择最优权重矩阵[W]=[Ω-1],能使广义矩估计量[θGMM]最有效,这里[Ω]是样本矩[I[1Ii=1IgBi,Si;θ]]的渐近协方差矩阵。
考虑到样本矩条件[gBi,Si;θ]之间存在序列相关性,本文采用Newey和West(1987)提供的算法来估计[Ω],具体为:[ΩNW=Ω0+k=1MT(1-k/(MT+1))(Ωk+Ω'k)],是采用Bartlett核函数,窗宽[MT=[T1/3]]的Newey-West协方差矩阵估计,这里T为样本容量,[Ωk],k=0,…,[MT]为第k阶样本自协方差矩阵。
三、数值模拟
本文通过数值模?M的方法比较了原始的极大似然估计(简记为MLE1)、改进的极大似然估计(简记为MLE2)和广义矩估计(GMM)三种方法对PIN的估计效果。首先考虑上述三种PIN模型估计方法在不同样本量、不同参数设置下的均方根误差。其次,进一步给出了三种估计的均方根误差和偏差随着知情交易者提交订单的速率[μ]及非知情交易者提交订单的速率[ε]变化的表现(这里,不失一般性地,令[εb=εs=ε],该假设亦符合Easley等(1998)提供的实证结果)。
(一)估计误差的比较
本节的模拟设置如下:在一次模拟过程中,为了产生每个交易日买卖订单量([Bi],[Si])的数据,需设定参数真值[θ=(α,δ,ε,μ)],其中,[α]=0.37和[δ]=0.70为均匀分布产生的随机数,[ε]分别取区间[0,1]、[10,100]、[100,200]和[200,300]内的均匀分布随机数,而[μ]/[ε]分别设为0.5、1和1.5,由式(1)计算,得到真实值PIN。而([Bi],[Si])服从式(5)的二维混合泊松分布,由此分布模拟生成连续I个交易日的交易数据[B=BiIi=1]和[S=SiIi=1],其中样本量I的取值分别为21、63、126和252,分别代表一个月、一季度、半年和一年的交易天数。本文的模拟次数N=1000次。
根据模拟生成的数据集([B],[S]),可以计算得到PIN模型的三种估计(MLE1,MLE2和GMM)。表1给出了三种估计在不同参数设置和不同样本量大小下的均方根误差比较,PanelA―D分别代表随机抽取的参数[ε]=0.5751、22.304、172和281的模拟结果。总体来看,随着[ε]的逐渐增大或者样本量I的变大,三种估计方法的均方根误差几乎呈现减小的趋势,只是在不同的参数设定场景下,三种方法误差减小的程度不尽相同。而对每一行,随着[μ]/[ε]比值设定逐步扩大,PanelA的情况是三个方法均方根误差均逐渐减小,PanelB的情况是先降后升,而PanelC和PanelD的情况是几乎逐步增大。对表1进一步分析可以发现,在[ε]取值较小时(0.5751和22.304),MLE1估计和MLE2估计的均方根误差区别不大,而此时GMM估计的误差略高于其他两种方法。而当[ε]取值较大时(172和281),MLE1估计误差明显高于MLE2估计,并且随着[μ]/[ε]增加,样本量I增加,二者之间的差别愈发明显。例如[μ]/[ε]=0.5、I=21时,MLE1的均方根误差仅比MLE2的高1.8%,而在[μ]/[ε]=1.5、I=252情况下,MLE1的均方根误差比MLE2的高约6倍,同时在[ε]取值较大时,GMM估计的优势逐渐显现出来,尤其是样本量I逐渐增大,或者固定[ε],[μ]/[ε]逐步增大,GMM的估计精度明显优于MLE1的精度。
(二)估计误差随[ε]及[μ]的变化
表1中的结果表明,三种方法的估计效果可能和[μ]与[ε]的相对大小以及样本量I均有关系。为了更加直观地比较并展示三种PIN估计的性质,图2给出了在不同样本量I的设定下,当[μ]/[ε=0.2,0.4,…,2]时,三种估计的均方根误差随着[μ]/[ε]变化的情形。而图3则是在不同样本量I的设定下三种估计的偏差随着[μ]/[ε]变化的情形。这里,其他的参数真值分别设为[α]=0.37,[δ]=0.70,[ε]=281。[4]EasleyD,HvidkjaerS,O’HaraM.2010.FactoringInformationintoReturns[J].JournalofFinancialandQuantitativeAnalysis,45(2).
[5]EasleyD,KieferNM,O'HaraMetal.1996.Liquidity,Information,andInfrequentlyTradedStocks[J].TheJournalofFinance,51(4).
[6]EasleyD,O'HaraM,PapermanJ.1998.Financialanalystsandinformation-basedtrade[J].JournalofFinancialMarkets,1(2).
[7]EfronB,GongG.1983.ALeisurelyLookattheBootstrap,theJackknife,andCross-Validation[J].TheAmericanStatistician,37(1).
[8]FamaEF,FrenchKR.1993.Commonriskfactorsinthereturnsonstocksandbonds[J].JournalofFinancialEconomics,33(1).
[9]GlostenLR,MilgromPR.1985.Bid,askandtransactionpricesinaspecialistmarketwithheterogeneouslyinformedtraders[J].JournalofFinancialEconomics,14(1).
[10]NeweyWK,WestKD.1987.ASimple,PositiveSemi-Definite,HeteroskedasticityandAutocorrelationConsistentCovarianceMatrix[J].Econometrica,55(3).
[11]RamalhoJJS.2006.Bootstrapbias-adjustedGMMestimators[J].EconomicsLetters,92(1).
[12]WilliamLinH-W,KeW-C.2011.Acomputingbiasinestimatingtheprobabilityofinformedtrading[J].JournalofFinancialMarkets,14(4).
[13]YanY,ZhangS.2012.Animprovedestimationmethodandempiricalpropertiesoftheprobabilityofinformedtrading[J].JournalofBanking&Finance,36(2).