贝叶斯统计的教学研究
来源:用户上传
作者:
【摘 要】目前贝叶斯思想还未真正融入大学课堂,实际教学中弱化了贝叶斯统计的思想和应用。贝叶斯统计在处理极端问题时往往比极大似然更符合人们的理念,更显著反映数据的指向性。近年来贝叶斯统计为牵引的随机模拟技术的蓬勃发展,使得大量的验证性试验可以通过计算机模拟完成,更加拓展了应用范围。文中就贝叶斯统计阐述了教学过程中的一点思考和研究。
【关键词】贝叶斯统计;极大似然;随机模拟
中图分类号: O212.8-4 文献标识码: A 文章编号: 2095-2457(2019)11-0249-002
DOI:10.19694/j.cnki.issn2095-2457.2019.11.119
【Abstract】At present, Bayesian thought has not really been integrated into the university classroom, which weakens the thought and application of Bayesian statistics in practical teaching. Bayesian statistics tend to be more consistent with people’s ideas than extreme likelihood when dealing with extreme problems, and more significantly reflect the directionality of data. In recent years, the rapid development of the random simulation technology of Bayesian statistics as traction has enabled a large number of validation tests to be completed by computer simulation, which has further expanded the scope of application. This paper expounds a little thinking and research on Bayesian statistics in the teaching process.
【Key words】Bayesian statistics; Great likelihood; Random simulation
频率学派,也称经典学派,使用了两种信息[1]:总体信息和样本信息,例如极大似然估计(Maximum Likelihood Estimate,MLE),完全依赖已知的模型和样本数据,即利用了总体信息和样本信息,思想是找到使得样本发生概率达到最大的量作为参数估计。贝叶斯统计在重视使用总体信息和样本信息的同时,还注意先验信息的收集、挖掘和加工,使它数量化,形成先验分布,参与到统计推断中来,以提高统计推断的质量。贝叶斯估计最基本的观点是将任一未知量都看作随机变量,根据以往的认知,给予其分布,称为先验分布,而后利用贝叶斯定理,综合考虑未知量的先验信息、模型信息和样本信息,得到未知量的后验概率分布,一般以后验期望作为估计值。
目前课程中的贝叶斯统计的思想体现还不够。非数学专业的课本中仅有贝叶斯公式,且带有概率计算的色彩,远远没有展示贝叶斯统计本来的技术性特点,而其被弱化现象的背后是当前教学和实际运用脱节的反映。事实上,近三十年来,以贝叶斯统计为牵引的随机模拟技术得到蓬勃发展,使得大量的验证性试验可以通过计算机模拟完成。然而当下的教学中,随机模拟的色彩不浓,面向实际的模拟设计有待加强。下面我就贝叶斯统计的教学研究谈一些想法。
1 贝叶斯统计与极大似然
贝叶斯统计[1]汇集了先验和似然的信息,将传统意义上的参数θ也视为随机变量,根据经验信息得到其先驗分布π(θ)。在取得样本数据之后,参数的信息集中于其后验分布π(θ|x),其密度函数的表达,分为以下几个步骤:
(1)总体依赖于参数θ的概率密度在贝叶斯统计中记为p(x|θ),表示随机变量θ取某个给定值时总体的条件概率密度。
(2)根据参数θ的先验信息确定随机变量θ的先验分布π(θ)。
(3)样本X=(x1,x2,…,xn)的联合条件概率为p(X|θ)=p(x1,x2,…,xn|θ),综合了总体信息和样本信息,与极大似然估计中的似然函数没有什么不同。
(4)由于参数θ被看做是一个随机变量,其取值可能性也有考虑进去,写出样本X和参数θ的联合分布g(X,θ)=p(X|θ)π(θ),将总体信息、样本信息和先验信息都纳入进来。
(5)目标是未知参数θ。在无样本信息时,只能根据先验信息对θ做出推断。在有了样本信息后,可以根据上述联合分布对参数θ做出推断,分解为
称为参数θ的后验分布。它集中了总体、样本和先验中有关θ的一切信息,相当于用总体和样本信息对先验分布π(θ)做出调整得到其新的分布,他要比π(θ)更接近现实情况。根据后验分布密度函数,取其函数最大值点或者期望作为参数θ的点估计。
这个步骤在讲授当中应详细说明,尤其要阐述清楚贝叶斯学派的三种信息如何体现在具体操作中,举例说明贝叶斯估计的实现过程,理论与实践相结合,而对于先验如何选取要在后面的课程中单独说明。不仅如此,为了更好地体会贝叶斯估计的自然合理性,应举例与极大似然估计相比较。例如在产品检验中,只区分合格品(记为1)和不合格品(记为0),则随机变量X服从两点分布g(x|θ)=θx(1-θ)1-x,x=0,1,参数θ未知。若给定观测样本x=1,或者多次观测全为1时,经典的极大似然估计为1,若给定观测样本x=0,或者多次观测全为0,经典的极大似然估计为0。显然这与人们的认知不符。而贝叶斯观点,将参数θ看做一个随机变量,先验分布为π(θ),不妨假设为均匀分布。根据公式(1)可得参数θ的后验分布 π(θ|x)=2θx(1-θ)1-x,θ∈(0,1)。
当观测样本x=1时,则
π(θ|1)=2θ,E(θ|1)=2/3,
若两次观测值均为1,则
π(θ|(1,1))=3θ2,E(θ|(1,1))=3/4,
依次下去,可得当抽取10个全为正品时的贝叶斯估计为11/12。这说明抽检1个是合格品,和抽检10个是合格品,在人们心目中留下的印象是不同的,后者要比前者更信得过,但是极大似然估计并反映出来(均为1)。
当观测数据为0时,参数θ的后验分布
π(θ|0)=2(1-θ),E(θ|1)=1/3,
当两次观测数据均为0时,参数θ的后验分布
π(θ|(0,0))=2(1-θ)2,E(θ|1)=1/6。
依次下去,具体如下表1所示。
表1 极端样本数据下的贝叶斯估计值
显然贝叶斯估计具有明显的数据指向性。在抽样数据极端情况下,贝叶斯估计比极大似然估计更符合人们对事物的认知。通过这样的例题可以更直观地感受贝叶斯估计运用先验信息的优势所在,推断更加全面,应该在教学中被充分体现。
2 贝叶斯统计与随机模拟
贝叶斯估计的目标是的后验分布,因此考虑的重心是后验分布的模拟,这样就淡化了似然函数计算的瓶颈。因为实际应用中,若数据模型的似然函数过于复杂就无法使用经典方法估计其中参数;若数据来源于随机过程模型时,可能无法写出观测的似然函数,进而无法利用经典统计方法估计其中参数。对于贝叶斯估计来说,虽然无法完整的计算出后验分布,但仍可借助MCMC抽样[2]得到来自后验分布的随机样本,从而得到后验分布的密度函数,得到θ的贝叶斯估计。近些年来近似贝叶斯计算(ABC)[3]的出现更是缓解了后验分布样本抽取困难的问题。
参数的推断问题实际上是随机模拟技术的应用问题。针对模型的不同,后验分布形式的不同,学习相应的随机模拟技术是现今课堂上所欠缺的。有必要将这些内容融入到统计课堂教学中,如讲解完常见分布之后增加相应的模拟方法;在讲述大数定律时,给出随机模拟在计算积分中的作用,例如LOOKUP离散模拟,接受拒绝抽样法;讲述极大似然估计时,针对含有潜在变量模型的极大似然估计给出EM算法;在贝叶斯理论中增加MCMC和ABC思想,增强课程的实践性,真正实现学以致用,知行合一。
3 结语
大数据时代的到来,引起了包括统计学在内的各种技术革命。贝叶斯理论作为其中重要的一部分,席卷了概率论,并将应用延伸到各个问题领域,所有需要作出概率预测的地方都可以见到贝叶斯方法的影子。作为教师,只有密切跟踪统计学理论和方法的发展前沿,才能将知识更好的传授给学生,让受教育者切实体会到贝叶斯统计的魅力所在,更进一步理解统计的意义,掌握统计学技术。课堂教学中和经典统计对比,首先指出经典统计在处理实际问题中的局限,然后给出贝叶斯统计的理论框架和处理思路,再探讨贝叶斯统计实施的关键问题和处理技术,最后借助案例演示贝叶斯统计的优势。
【参考文献】
[1]茆詩松,王静龙,濮晓龙.高等数理统计[M].高等教育出版社,2016.
[2]Beaumont M A, Zhang W, Balding D J. Approximate Bayesian Computation in Population Genetic[J].Genetics, 2002,162, 2025-2035.
[3]D. J.Wilkinson. Stochastic Modelling for Systems Biology[M].Taylor & Francis Group, LLC, 2012.
转载注明来源:https://www.xzbu.com/8/view-14839741.htm