常见的8个概率分布公式和可视化
概率和统计知识是数据科学和机器学习的核心;我们需要统计和概率知识来有效地收集、审查、分析数据。
现实世界中有几个现象实例被认为是统计性质的(即天气数据、销售数据、财务数据等)。这意味着在某些情况下,我们已经能够开发出方法来帮助我们通过可以描述数据特征的数学函数来模拟自然。
概率分布是一个数学函数,它给出了实验中不同可能结果的发生概率。
了解数据的分布有助于更好地模拟我们周围的世界。它可以帮助我们确定各种结果的可能性,或估计事件的可变性。所有这些都使得了解不同的概率分布在数据科学和机器学习中非常有价值。
在本文中,我们将介绍一些常见的分布并通过Python代码进行可视化以直观地显示它们。均匀分布
最直接的分布是均匀分布。均匀分布是一种概率分布,其中所有结果的可能性均等。例如,如果我们掷一个公平的骰子,落在任何数字上的概率是16。这是一个离散的均匀分布。
但是并不是所有的均匀分布都是离散的它们也可以是连续的。它们可以在指定范围内取任何实际值。a和b之间连续均匀分布的概率密度函数(PDF)如下:
让我们看看如何在Python中对它们进行编码:importnumpyasnpimportmatplotlib。pyplotaspltfromscipyimportstatsforcontinuousa0b50size5000Xcontinuousnp。linspace(a,b,size)continuousuniformstats。uniform(loca,scaleb)continuousuniformpdfcontinuousuniform。pdf(Xcontinuous)fordiscreteXdiscretenp。arange(1,7)discreteuniformstats。randint(1,7)discreteuniformpmfdiscreteuniform。pmf(Xdiscrete)plotbothtablesfig,axplt。subplots(nrows1,ncols2,figsize(15,5))discreteplotax〔0〕。bar(Xdiscrete,discreteuniformpmf)ax〔0〕。setxlabel(X)ax〔0〕。setylabel(Probability)ax〔0〕。settitle(DiscreteUniformDistribution)continuousplotax〔1〕。plot(Xcontinuous,continuousuniformpdf)ax〔1〕。setxlabel(X)ax〔1〕。setylabel(Probability)ax〔1〕。settitle(ContinuousUniformDistribution)plt。show()
高斯分布
高斯分布可能是最常听到也熟悉的分布。它有几个名字:有人称它为钟形曲线,因为它的概率图看起来像一个钟形,有人称它为高斯分布,因为首先描述它的德国数学家卡尔高斯命名,还有一些人称它为正态分布,因为早期的统计学家注意到它一遍又一遍地再次发生。
正态分布的概率密度函数如下:
是标准偏差,是分布的平均值。要注意的是,在正态分布中,均值、众数和中位数都是相等的。
当我们绘制正态分布的随机变量时,曲线围绕均值对称一半的值在中心的左侧,一半在中心的右侧。并且,曲线下的总面积为1。mu0variance1sigmanp。sqrt(variance)xnp。linspace(mu3sigma,mu3sigma,100)plt。subplots(figsize(8,5))plt。plot(x,stats。norm。pdf(x,mu,sigma))plt。title(NormalDistribution)plt。show()
对于正态分布来说。经验规则告诉我们数据的百分比落在平均值的一定数量的标准偏差内。这些百分比是:
68的数据落在平均值的一个标准差内。
95的数据落在平均值的两个标准差内。
99。7的数据落在平均值的三个标准差范围内。对数正态分布
对数正态分布是对数呈正态分布的随机变量的连续概率分布。因此,如果随机变量X是对数正态分布的,则Yln(X)具有正态分布。
这是对数正态分布的PDF:
对数正态分布的随机变量只取正实数值。因此,对数正态分布会创建右偏曲线。
让我们在Python中绘制它:Xnp。linspace(0,6,500)std1mean0lognormdistributionstats。lognorm(〔std〕,locmean)lognormdistributionpdflognormdistribution。pdf(X)fig,axplt。subplots(figsize(8,5))plt。plot(X,lognormdistributionpdf,label0,1)ax。setxticks(np。arange(min(X),max(X)))std0。5mean0lognormdistributionstats。lognorm(〔std〕,locmean)lognormdistributionpdflognormdistribution。pdf(X)plt。plot(X,lognormdistributionpdf,label0,0。5)std1。5mean1lognormdistributionstats。lognorm(〔std〕,locmean)lognormdistributionpdflognormdistribution。pdf(X)plt。plot(X,lognormdistributionpdf,label1,1。5)plt。title(LognormalDistribution)plt。legend()plt。show()
泊松分布
泊松分布以法国数学家西蒙丹尼斯泊松的名字命名。这是一个离散的概率分布,这意味着它计算具有有限结果的事件换句话说,它是一个计数分布。因此,泊松分布用于显示事件在指定时期内可能发生的次数。
如果一个事件在时间上以固定的速率发生,那么及时观察到事件的数量(n)的概率可以用泊松分布来描述。例如,顾客可能以每分钟3次的平均速度到达咖啡馆。我们可以使用泊松分布来计算9个客户在2分钟内到达的概率。
下面是概率质量函数公式:
是一个时间单位的事件率在我们的例子中,它是3。k是出现的次数在我们的例子中,它是9。这里可以使用Scipy来完成概率的计算。fromscipyimportstatsprint(stats。poisson。pmf(k9,mu3))0。002700503931560479
泊松分布的曲线类似于正态分布,表示峰值。Xstats。poisson。rvs(mu3,size500)plt。subplots(figsize(8,5))plt。hist(X,densityTrue,edgecolorblack)plt。title(PoissonDistribution)plt。show()
指数分布
指数分布是泊松点过程中事件之间时间的概率分布。指数分布的概率密度函数如下:
是速率参数,x是随机变量。Xnp。linspace(0,5,5000)exponetialdistribtuionstats。expon。pdf(X,loc0,scale1)plt。subplots(figsize(8,5))plt。plot(X,exponetialdistribtuion)plt。title(ExponentialDistribution)plt。show()
二项分布
可以将二项分布视为实验中成功或失败的概率。有些人也可能将其描述为抛硬币概率。
参数为n和p的二项式分布是在n个独立实验序列中成功次数的离散概率分布,每个实验都问一个是否问题,每个实验都有自己的布尔值结果:成功或失败。
本质上,二项分布测量两个事件的概率。一个事件发生的概率为p,另一事件发生的概率为1p。
这是二项分布的公式:
可视化代码如下:Xnp。random。binomial(n1,p0。5,size1000)plt。subplots(figsize(8,5))plt。hist(X)plt。title(BinomialDistribution)plt。show()
学生t分布
学生t分布(或简称t分布)是在样本量较小且总体标准差未知的情况下估计正态分布总体的均值时出现的连续概率分布族的任何成员。它是由英国统计学家威廉西利戈塞特(WilliamSealyGosset)以笔名student开发的。
PDF如下:
n是称为自由度的参数,有时可以看到它被称为d。o。f。对于较高的n值,t分布更接近正态分布。importseabornassnsfromscipyimportstatsX1stats。t。rvs(df1,size4)X2stats。t。rvs(df3,size4)X3stats。t。rvs(df9,size4)plt。subplots(figsize(8,5))sns。kdeplot(X1,label1d。o。f)sns。kdeplot(X2,label3d。o。f)sns。kdeplot(X3,label6d。o。f)plt。title(Studentstdistribution)plt。legend()plt。show()
卡方分布
卡方分布是伽马分布的一个特例;对于k个自由度,卡方分布是一些独立的标准正态随机变量的k的平方和。
PDF如下:
这是一种流行的概率分布,常用于假设检验和置信区间的构建。
让我们在Python中绘制一些示例图:Xnp。arange(0,6,0。25)plt。subplots(figsize(8,5))plt。plot(X,stats。chi2。pdf(X,df1),label1d。o。f)plt。plot(X,stats。chi2。pdf(X,df2),label2d。o。f)plt。plot(X,stats。chi2。pdf(X,df3),label3d。o。f)plt。title(ChisquaredDistribution)plt。legend()plt。show()
掌握统计学和概率对于数据科学至关重要。在本文展示了一些常见且常用的分布,希望对你有所帮助。
作者:KurtisPykes
银河麒麟桌面操作系统V10SP12203update3更新发IT之家3月28日消息,据银河麒麟宣布,银河麒麟桌面操作系统V10SP12203update3版本更新发布,即将逐步推送至终端用户。本次更新致力于提升系统安全性和易用性,更新版……
致詹黑等詹姆斯退役了,你还会看NBA吗?篮球场也是江湖,有江湖的地方就有纷争,谁都想能功成名就,殊不知一将功成万骨枯,站的越高愤恨你的人就越多,高处不胜寒!今早醒来,第一件事便是拿起手机查看了3:30湖人VS公……
谢东竟然老到眉毛都白了,头发也所剩无几!近日,歌手谢东在网上发了一段视频,视频中的谢东几乎都快认不出来了,满脸皱纹,头发基本上都没了,最让人意外的是他竟然连眉毛都白了,其实他也不过60岁而已,怎么至于老成这样呢?头发……
黑木耳猪肝汤,活血化瘀巧除黑眼圈黑眼圈,主要是因为眼眶部位的眼皮颜色较暗所呈现的外观。他与眼皮本身的色素多寡,眼皮内的血管血流颜色以及光线投射方向等因素有关。由于眼部皮肤是全身皮肤中最薄的,所以皮肤的色……
这类App,千万要小心相亲还是诈骗部分网络婚恋交友平台陷阱重重当前,互联网婚恋交友平台因能够提供快捷、便利相亲服务,市场规模越来越大。在手机应用商店,婚恋交友类App数量极多,不少下载量在千万……
一分钟,给你从头到脚做个体检,你相信吗?看你一分钟,就能给你从头到脚做个体检,你相信吗?没有西医那些仪器的繁琐,无需漫长的排队等待。有些人没有经历过的事情就认为不存在,盲目的否定一切,其实就是自大无知的表现!你不信你……
环渤海经济区人口大量外流,是真的吗?界面新闻记者赵孟界面新闻编辑刘海川随着中国人口总量进入负增长,省际间、区域间的人口流动逐渐成为人口竞争的新常态,引发关注。近日有文章称,环渤海经济区人口大量外流,出……
西藏墨脱要免门票了,春游墨脱攻略来啦!据西藏墨脱官方的公告,墨脱景区将于3月16日开始免门票啦,大家准备好春游西藏了吗?墨脱,位于中国西南地区的藏南地区,是中国最后一个通公路的县城。一、自然风光墨……
NewBing真的很牛吗?微软的newBing已经出来1个月了,文哥之前申请的两个账号也是纷纷通过了审核,能够顺利体验啦。体验一翻下来,暂不说相比于ChatGPT,newBing对于国内用户更加友……
2023上半年再见!下半年请你加油!再加油人皆苦炎热,我爱夏日长。熏风自南来,殿阁生微凉。李昂、柳公权不知不觉,六月已尽。七月至,2020整整半年就这么过去了。新冠疫情、蝗灾、火灾、冰雹、……
甲流高峰何时过去难预测,家长记住3吃3不吃能护孩子健康最近,我的朋友圈里,似乎又回到了年前的趋势。发烧、咳嗽、流鼻涕、拉肚子、四肢酸痛,有这些症状的人越来越多,不过和上次不一样是,这次流行的不是新冠,而是甲流。01多日高烧不……
瞭望长沙打造内陆开放高地长沙外贸进出口总额连续多年实现跨越式发展:2018年突破1000亿元,2019年突破2000亿元,2022年突破3000亿元湖南自贸试验区长沙片区已累计形成制度创新成果8……