百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

选择困难?让Python来帮您抛硬币吧

cac55 2024-10-03 17:48 24 浏览 0 评论

还在抛硬币找答案?还在为抛硬币不理想而烦恼?现在让Python来帮助你抛硬币吧,又准又公道。



PyMC3是一个用于概率编程的Python库,当前最新的版本号是2016年10月4号发布的3.0.rc2。PyMC3提供了一套非常简洁直观的语法,非常接近统计学中描述概率模型的语法,可读性很高。PyMC3是用Python写的,其中的核心计算部分基于NumPy和Theano。Theano是一个用于深度学习的Python库,可以高效地定义、优化和求解多维数组的数学表达式。PyMC3使用Theano的主要原因是某些采样算法(如NUTS)需要计算梯度,而Theano可以很方便地进行自动求导。而且,Theano将Python代码转化成了C代码,因而PyMC3的速度相当快。

用计算的方法解决抛硬币问题

让我们重新回顾下抛硬币问题,这次我们使用PyMC3。首先我们需要获取数据,这里我们使用手动构造的数据。由于数据是我们自己生成,所以知道真实的参数

,以下代码中用theta_real变量表示。显然,在真实数据中,我们并不知道参数的真实值,而是要将其估计出来。

np.random.seed(123)
n_experiments = 4
theta_real = 0.35
data = stats.bernoulli.rvs(p=theta_real, size=n_experiments)
print(data)
array([1, 0, 0, 0])

模型描述



现在有了数据,需要再指定模型。回想一下,模型可以通过指定似然和先验的概率分布完成。对于似然,我们可以用参数分别为

的二项分布来描述,对于先验,我们可以用参数为

的beta分布描述。这个beta分布与[0,1]区间内的均匀分布是一样的。我们可以用数学表达式描述如下:

这个统计模型与PyMC3的语法几乎一一对应。第1行代码先构建了一个模型的容器,PyMC3使用with语法将所有位于该语法块内的代码都指向同一个模型,你可以把它看作是简化模型描述的“语法糖”,这里将模型命名为our_first_model。第2行代码指定了先验,可以看到,语法与数学表示很接近。我们把随机变量命名为

,需要注意的是,这里变量名与Beta函数的第1个参数名一样;保持相同的名字是个好习惯,这样能避免混淆。然后,我们通过变量名从后验采样中提取信息。这里变量

是一个随机变量,我们可以将该变量看做是从某个分布(在这里是beta分布)中生成数值的方法而不是某个具体的值。第3行代码用跟先验相同的语法描述了似然,唯一不同的是我们用observed变量传递了观测到的数据,这样就告诉了PyMC3我们的似然。其中,data可以是一个Python列表或者Numpy数组或者Pandas的DataFrame。这样我们就完成了模型的描述。

with pm.Model() as our_first_model:
 theta = pm.Beta('theta', alpha=1, beta=1)
 y = pm.Bernoulli('y', p=theta, observed=data)

按下推断按钮



对于抛硬币这个问题,后验分布既可以从分析的角度计算出来,也可以通过PyMC3用几行代码从后验的采样中得到。代码中的第1行,调用了find_MAP函数,该函数调用SciPy中常用的优化函数尝试返回最大后验(Maximum a Posteriori,MAP)。调用find_MAP是可选的,有时候其返回值能够为采样方法提供一个不错的初始点,不过有时候却并没有多大用,因此大多数时候会避免使用它。然后,下一行定义了采样方法。这里用的是Metropolis-Hastings算法,函数名取了简写Metropolis。PyMC3可以让我们将不同的采样器赋给不同的随机变量;眼下我们的模型只有一个参数,不过后面我们会有多个参数。我们也可以省略该行,PyMC3会根据不同参数的特性自动地赋予一个采样器,例如,NUTS算法只对连续变量有用,因而不能用于离散的变量,Metropolis算法能够处理离散的变量,而另外一些类型的变量有专门的采样方法。总的来说,我们可以让PyMC3为我们选一个采样方法。最后一行是执行推断,其中第1个参数是采样次数,第2个和第3个参数分别是采样方法和初始点,可以看到这两个参数是可选的。

 start = pm.find_MAP()
 step = pm.Metropolis()
 trace = pm.sample(1000, step=step, start=start)

这样,只需要几行代码我们就完成了整个模型的描述和推断。感谢PyMC3的开发者们为我们提供了这么棒的库。

诊断采样过程


现在我们根据有限数量的样本对后验做出了近似,接下来要做的第一件事就是检查我们的近似是否合理。我们可以做一些测试,有些是可视化的,有些是定量的。这些测试会尝试从样本中发现问题,但并不能证明我们得到的分布是正确的,它们只能提供证据证明样本看起来是合理的。如果我们通过样本发现了问题,解决办法有如下几种。



  • 增加样本次数。
  • 从样本链(迹)的前面部分去掉一定数量的样本,称为 老化 (Burn-in)。在实践中,MCMC方法通常需要经过一段时间的采样之后,才得到真正的目标分布。老化在无限多次的采样中并不是必须的,因为这部分并没有包含在马尔科夫理论中。事实上,去掉前面部分的样本只不过是在有限次采样中提升结果的一个小技巧。需要注意,不要被数学对象和数学对象的近似弄糊涂了,球体、高斯分布以及马尔科夫链等数学对象只存在于柏拉图式的想象世界中,并不存在于不完美但却真实的世界中。
  • 重新参数化你的模型,也就是说换一种不同但却等价的方式描述模型。
  • 转换数据。这么做有可能得到更高效的采样。转换数据的时候需要注意对结果在转换后的空间内进行解释,或者再重新转换回去,然后再解释结果。


收敛性

通常,我们要做的第一件事就是查看结果长什么样,traceplot函数非常适合该任务:

burnin = 100
chain = trace[burnin:]
pm.traceplot(chain, lines={'theta':theta_real});

对于未观测到的变量,我们得到了两幅图。左图是一个 核密度估计 (Kernel Density Estimation,KDE)图,可以看做是平滑之后的直方图。右图描绘的是每一步采样过程中得到的采样值。注意图中红色的线表示变量theta_real的值。

在得到这些图之后,我们需要观察什么呢?首先,KDE图看起来应该是光滑的曲线。通常,随着数据的增加,根据中心极限定理

,参数的分布会趋近于高斯分布。当然,这并不一定是正确的。右侧的图看起来应该像白噪声,也就是说有很好的 混合度(mixing) ,我们看不到任何可以识别的模式,也看不到向上或者向下的曲线,相反,我们希望看到曲线在某个值附近震荡。对于多峰分布或者离散分布,我们希望曲线不要在某个值或区域停留过多时间,我们希望看到采样值在多个区间自由移动。此外,我们希望迹表现出稳定的相似性,也就是说,前10%看起来跟后50%或者10%差不多。再次强调,我们不希望看到规律的模式,相反我们期望看到的是噪声。下图展示了一些迹呈现较好混合度(右侧)与较差混合度(左侧)的对比。

如果迹的前面部分跟其他部分看起来不太一样,那就意味着需要进行老化处理,如果其他部分没有呈现稳定的相似性或者可以看到某种模式,那这意味着需要更多的采样,或者需要更换采样方法或者参数化方法。对于一些复杂的模型,我们可能需要结合使用前面所有的策略。

PyMC3可以实现并行地运行一个模型多次,因而对同一个参数可以得到多条并行的迹。这可以通过在采样函数中指定njobs参数实现。此时使用traceplot函数,便可在同一幅图中得到同一个参数的所有迹。由于每组迹都是相互独立的,所有的迹看起来都应该差不多。除了检查收敛性之外,这些并行的迹也可以用于推断,我们可以将这些并行的迹组合起来提升采样大小而不是扔掉多余的迹:

with our_first_model:
 step = pm.Metropolis()
 multi_trace = pm.sample(1000, step=step, njobs=4)

burnin = 0
multi_chain = multi_trace[burnin:]
pm.traceplot(multi_chain, lines={'theta':theta_real});

一种定量地检测收敛性的方法是 Gelman-Rubin 检验。该检验的思想是比较不同迹之间的差异和迹内部的差异,因此,需要多组迹来进行该检验。理想状态下,我们希望得到

。根据经验,我们认为如果得到的值低于1.1,那么可以认为是收敛的了,更高的值则意味着没有收敛:

pm.gelman_rubin(multi_chain)
{'theta': 1.0074579751170656, 'theta_logodds': 1.009770031607315}

我们还可以用forestplot函数将

和每个参数的均值、50%HPD和95%HPD可视化地表示出来:

pm.forestplot(multi_chain, varnames=['theta']);

函数summary提供了对后验的文字描述,它可以提供后验的均值、标准差和HPD区间:

pm.summary(multi_chain)
theta:
 Mean SD MC Error 95% HPD interval
 -------------------------------------------------------------------
 0.339 0.173 0.006 [0.037, 0.659]
Posterior quantiles:
 2.5 25 50
75 97.5
 |--------------|==============|==============|--------------|
 0.063 0.206 0.318
0.455 0.709

此外,df_summary函数会返回类似的结果,不过类型是Pandas中的DataFrame:

pm.df_summary(multi_chain)

其中,返回值之一是mc_error,这是对采样引入误差的估计值,该值考虑的是所有的采样值并非真的彼此独立。mc_error是迹中不同块的均值的标准差,每一块是迹中的一部分:

该误差值显然低于我们结果的准确度。由于采样方法是随机的,每次重跑的时候,summary或者df_summary返回的值都会不同,不过没关系,mc_error的值应该是相似的,如果返回的值有很大不同,则说明我们可能需要更多的样本。

自相关

最理想的采样应该不会是自相关的,也就是说,某一点的值应该与其他点的值是相互独立的。在实际中,从MCMC方法(特别是Metropolis-Hastings)中得到的采样值是自相关的。由于参数之间的相互依赖关系,可能模型会导致更多的自相关采样。PyMC3有一个很方便的函数用来描述自相关。

pm.autocorrplot(chain)

该图显示了采样值与相邻连续点(最多100个)之间的平均相关性。理想状态下,我们不会看到自相关性,实际中我们希望看到自相关性降低到较低水平。参数越自相关,要达到指定精度的采样次数就需要越多,也就是说,自相关性不利于降低采样次数。

有效采样大小

一个有自相关性的采样要比没有自相关性的采样所包含的信息量更少,因此,给定采样大小和采样的自相关性之后,我们可以尝试估计出该采样的大小为多少时,该采样没有自相关性而且包含的信息量不变,该值称为有效采样大小。理想情况下,两个值是一模一样的;二者越接近,我们的采样效率越高。有效采样大小可以作为我们的一个参考,如果我们想要估计出一个分布的均值,我们需要的最小采样数至少为100;如果想要估计出依赖于尾部分布的量,比如可信区间的边界,那么我们可能需要1000到10000次采样。

pm.effective_n(multi_chain)['theta']
667

显然,提高采样效率的一个方法是换一个更好的采样方法;另一个办法是转换数据或者对模型重新设计参数,此外,还有一个常用的办法是对采样链压缩。所谓压缩其实就是每隔 k 个观测值取一个,在Python中我们称为切片。压缩会降低自相关性,但代价是同时降低了样本量。因此,实际使用中通常更倾向于增加样本量而不是切片。不过有时候,压缩会很有用,比如降低存储空间。如果仍不能避免高自相关性,我们就只能算出更长的采样链,模型中的参数很多的话,存储量会是个问题。而且,我们可能还会对后验做一些计算量很大的后处理,此时在自相关性尽可能小的前提下,采样数量的大小就显得尤为重要。

总结

目前为止,所有的诊断测试都是经验性而非绝对的。实际使用中,我们会先运行一些测试,如果看起来没什么问题,我们就继续往下分析。如果发现了一些问题,就需要回过头解决它们,这也是建模过程的一部分。要知道,进行收敛性检查并非贝叶斯理论的一部分,由于我们是用数值的方式在计算后验,因而这只是贝叶斯实践过程中的一部分。


相关推荐

QQ表情大图(QQ表情大图怎么发)

爷青回 | QQ经典老头像(爷青回这个梗出自哪里)

点个关注不迷路记得点击上方关注我呦点击表情包长按可保存至手机表情包素材来源于网络,仅供分享哦拿完图记得吱一声点击下方分享、在看让更多人看到...

史上最全QQ官方经典头像全面翻新,不光高清还会动

每当看到上面这些头像,总能想起那些年的"轻舞飞扬","缘分天空","追风少年",这些已经模糊的头像给我们留下了太深的印象。这次为了纪念QQ20周年,腾讯官方整合了早期的105个经典头像,进行了全面翻...

QQ最全表情含义图解意思(qq表情含义图解最新 新版 文字)

QQ都不陌生吧!对QQ的表情符号含义你了解多少呢?在本文中最全图解233个表情所表达的含义,供有需人享用。用过QQ的人都晓得它的创始人是马化腾。QQ于1999年2月10日正式推出。QQ是腾讯公司开发的...

海联真人版QQ经典表情(海联真人版qq经典表情在哪)

海联版傲娇的说声“耶”狂拽炫酷就是我淑女应该轻言细语萌萌哒的娇羞哎哟喂小丫头片子机智如我吓死宝宝了欧巴卡几嘛~今天天气好晴朗怎么样?是不是很有趣呢拿起手机给自己拍几张萌萌哒的美照吧...

QQ音乐·音乐灵感独家对话金曲奖「最佳单曲制作人奖」得主JADE

JADE-AllRightJADE-差-点JADE-Goodbye,GoodbyeJADE-IAmLovefeat.乔瑟夫Chillseph下面请听本期灵感电台节目:本期博客...

亿万富豪爱泼斯坦狱中“自杀”,他背后的神秘女人出现在洛杉矶快餐店

爱泼斯坦在狱中离奇“自杀”,但他身负同谋指控的前女友、英国社交名媛希莱恩·麦克斯维尔(GhislaineMaxwell),却意外地出现在了洛杉矶街头平民快餐店,边啃着汉堡,咽着薯条,嘬着奶昔,边埋头...

扛起星战大旗的你们 觉得星战女需要换一身衣裳吗?

马上进入2016年,除了各种总结盘点以外,2016年的新看点也是需要科普一下了。目前最令人期待的应该就是《星球大战》回归了!《StarWars:原力觉醒》1月10日上映,博主不是电影评论员,所以不会...

和人对话的时候,我,最怕的就是,看到了自己内心的惶恐和脆弱

IWannaBeYourSlave(LiveFromGlobalCitizenLive2021),Maneskin很多时候,哪怕最甘于寂寞的人,也需要和人发生关联,需要和这个世界沟...

2024年度串烧完整版(搞笑失败尴尬丢人版)来了

一首APT的时间带你回顾你的2024年年度歌单。·1.《免我蹉跎苦》黄龄。·2.《红昭愿》音阙诗听。·3.《苹果香》狼戈。·4.《免我蹉跎苦》黄龄。·5.《红昭愿》音阙诗听。·6.《苹果香》狼戈。·7...

一课译词:打工人(打工人的翻译)

下午好,各位打工人!近日,“打工人”爆红网络,受到各行各业年轻人的追捧,但这词到底说的是个啥?“打工人”是那些依靠体力或技术的劳动者的统称。除了赚钱这个最大的目标,别的啥也不想;他们意志坚定,也不会迟...

初级词汇题(一)柏拉图指出不是每个孩子都适合上学,你赞成吗?

初级词汇题(一)柏拉图在《理想国》中指出不是每个孩子都适合上学,你赞成吗?今天分享的题目是我基于英文原著改编的初级词汇题A开头的第81道题。背景知识拓展:什么是nativist(先天论者)?什么是哲学...

治愈系英文:每个说不想恋爱的人,心里都装着一个无法拥有的人

Therearesomanypeopleouttherewhowilltellyouthatyoucan't.Whatyou'vegottodoisturna...

首首经典!意大利流行乐队Maneskin作品I WANNA BE YOUR SLAVE

手机点击试听(上边)Maneskin是一支来自罗马的意大利流行摇滚乐队,由主唱DamianoDavid、贝斯手VictoriaDeAngelis、吉他手ThomasRaggi和鼓手...

国家电网新一代电子商务平台投标文件双层PDF制作最全教程

投标知识在招投标过程中,我们经常碰见有些文件要求制成双层PDF格式,那么双层PDF是什么呢?怎么制作呢?今天就给大家普及下。定义双层PDF双层PDF格式文件是一种具有多层结构的PDF格式文件,是PD...

取消回复欢迎 发表评论: