编程 Python

python 计算概率密度、累计分布、逆函数的例子

Posted in Python onFebruary 25, 2020

计算概率分布的相关参数时，一般使用 scipy 包，常用的函数包括以下几个：

pdf：连续随机分布的概率密度函数

pmf：离散随机分布的概率密度函数

cdf：累计分布函数

百分位函数（累计分布函数的逆函数）

生存函数的逆函数（1 - cdf 的逆函数）

函数里面不仅能跟一个数据，还能跟一个数组。下面用正态分布举例说明：

>>> import scipy.stats as st

>>> st.norm.cdf(0) # 标准正态分布在 0 处的累计分布概率值
0.5

>>> st.norm.cdf([-1, 0, 1])# 标准正态分布分别在 -1， 0， 1 处的累计分布概率值
array([0.15865525, 0.5, 0.84134475])

>>> st.norm.pdf(0) # 标准正态分布在 0 处的概率密度值
0.3989422804014327

>>> st.norm.ppf(0.975)# 标准正态分布在 0.975 处的逆函数值
1.959963984540054

>>> st.norm.lsf(0.975)# 标准正态分布在 0.025 处的生存函数的逆函数值
1.959963984540054

对于非标准正态分布，通过更改参数 loc 与 scale 来改变均值与标准差：

>>> st.norm.cdf(0, loc=2, scale=1) # 均值为 2，标准差为 1 的正态分布在 0 处的累计分布概率值
0.022750131948179195

对于其他随机分布，可能更改的参数不一样，具体需要查官方文档。下面我们举一些常用分布的例子：

>>> st.binom.pmf(4, n=100, p=0.05) # 参数值 n=100, p=0.05 的二项分布在 4 处的概率密度值
0.17814264156968956

>>> st.geom.pmf(4, p=0.05) # 参数值 p=0.05 的几何分布在 4 处的概率密度值
0.04286875

>>> st.poisson.pmf(2, mu=3) # 参数值 mu=3 的泊松分布在 2 处的概率密度值
0.22404180765538775

>>> st.chi2.ppf(0.95, df=10) # 自由度为 10 的卡方分布在 0.95 处的逆函数值
18.307038053275146

>>> st.t.ppf(0.975, df=10) # 自由度为 10 的 t 分布在 0.975 处的逆函数值
2.2281388519649385

>>> st.f.ppf(0.95, dfn=2, dfd=12) # 自由度为 2, 12 的 F 分布在 0.95 处的逆函数值
3.8852938346523933

补充拓展：给定概率密度,生成随机数 python实现

实现的方法可以不止一种：

rejection sampling

invert the cdf

Metropolis Algorithm (MCMC)

本篇介绍根据累积概率分布函数的逆函数(2：invert the CDF)生成的方法。

自己的理解不一定正确，有错误望指正。

目标：

已知 y=pdf(x），现想由给定的pdf, 生成对应分布的x

PDF是概率分布函数，对其积分或者求和可以得到CDF（累积概率分布函数），PDF积分或求和的结果始终为1

步骤（具体解释后面会说）：

1、根据pdf得到cdf

2、由cdf得到inverse of the cdf

3、对于给定的均匀分布[0,1),带入inverse cdf，得到的结果即是我们需要的x

求cdf逆函数的具体方法：

对于上面的第二步，可以分成两类：

1、当CDF的逆函数好求时，直接根据公式求取，

2、反之当CDF的逆函数不好求时，用数值模拟方法

自己的理解：为什么需要根据cdf的逆去获得x？

原因一：

因为cdf是单调函数因此一定存在逆函数（cdf是s型函数，而pdf则不一定，例如正态分布，不单调，对于给定的y，可能存在两个对应的x，就不可逆）

原因二：

这仅是我自己的直观理解，根据下图所示（左上为pdf，右上为cdf）

python 计算概率密度、累计分布、逆函数的例子

由步骤3可知，我们首先生成[0，1)的均匀随机数，此随机数作为cdf的y，去映射到cdf的x（若用cdf的逆函数表示则是由x映射到y），可以参考上图的右上，既然cdf的y是均匀随机的，那么对于cdf中同样范围的x，斜率大的部分将会有更大的机会被映射，因为对应的y范围更大（而y是随即均匀分布的），那么，cdf的斜率也就等同于pdf的值，这正好符合若x的pdf较大，那么有更大的概率出现（即重复很多次后，该x会出现的次数最多）

代码实现——方法一，公式法

import numpy as np
import math
import random
import matplotlib.pyplot as plt
import collections

count_dict = dict()
bin_count = 20

def inverseCDF():
 """
 return the x value in PDF
 """
 uniform_random = random.random()
 return inverse_cdf(uniform_random)
 

def pdf(x):
 return 2 * x
 
# cdf = x^2, 其逆函数很好求，因此直接用公式法
def inverse_cdf(x):
 return math.sqrt(x)


def draw_pdf(D):
	global bin_count
 D = collections.OrderedDict(sorted(D.items()))
 plt.bar(range(len(D)), list(D.values()), align='center')
 # 因为映射bin的时候采用的floor操作，因此加上0.5
 value_list = [(key + 0.5) / bin_count for key in D.keys()]
 plt.xticks(range(len(D)), value_list)
 plt.xlabel('x', fontsize=5)
 plt.ylabel('counts', fontsize=5)
 plt.title('counting bits')
 plt.show()

for i in range(90000):
 x = inverseCDF()
 # 用bin去映射，否则不好操作
 bin = math.floor(x * bin_count) # type(bin): int
 count_dict[bin] = count_dict.get(bin, 0) + 1

draw_pdf(count_dict)

结果：

python 计算概率密度、累计分布、逆函数的例子

代码实现——方法二，数值法

数值模拟cdf的关键是创建lookup table，

table的size越大则结果越真实（即区间划分的个数）

import numpy as np
import math
import random
import matplotlib.pyplot as plt
import collections

lookup_table_size = 40
CDFlookup_table = np.zeros((lookup_table_size))

count_dict = dict()
bin_count = 20

def inverse_cdf_numerically(y):
 global lookup_table_size
 global CDFlookup_table
 value = 0.0
 for i in range(lookup_table_size):
  x = i * 1.0 / (lookup_table_size - 1)
  value += pdf2(x)
  CDFlookup_table[i] = value
 CDFlookup_table /= value # normalize the cdf

 if y < CDFlookup_table[0]: 
  t = y / CDFlookup_table[0]
  return t / lookup_table_size
 index = -1
 for j in range(lookup_table_size):
  if CDFlookup_table[j] >= y:
   index = j
   break
 # linear interpolation
 t = (y - CDFlookup_table[index - 1]) / \
  (CDFlookup_table[index] - CDFlookup_table[index - 1])
 fractional_index = index + t # 因为index从0开始,所以不是 (index-1)+t
 return fractional_index / lookup_table_size


def inverseCDF():
 """
 return the x value in PDF
 """
 uniform_random = random.random()
 return inverse_cdf_numerically(uniform_random)


def pdf2(x):
 return (x * x * x - 10.0 * x * x + 5.0 * x + 11.0) / (10.417)

def draw_pdf(D):
 global bin_count
 D = collections.OrderedDict(sorted(D.items()))
 plt.bar(range(len(D)), list(D.values()), align='center')
 value_list = [(key + 0.5) / bin_count for key in D.keys()]
 plt.xticks(range(len(D)), value_list)
 plt.xlabel('x', fontsize=5)
 plt.ylabel('counts', fontsize=5)
 plt.title('counting bits')
 plt.show()


for i in range(90000):
 x = inverseCDF()
 bin = math.floor(x * bin_count) # type(bin): int
 count_dict[bin] = count_dict.get(bin, 0) + 1

draw_pdf(count_dict)

真实函数与模拟结果

python 计算概率密度、累计分布、逆函数的例子

扩展：生成伯努利、正太分布

import numpy as np
import matplotlib.pyplot as plt
"""
reference:
https://blog.demofox.org/2017/07/25/counting-bits-the-normal-distribution/
"""


def plot_bar_x():
 # this is for plotting purpose
 index = np.arange(counting.shape[0])
 plt.bar(index, counting)
 plt.xlabel('x', fontsize=5)
 plt.ylabel('counts', fontsize=5)
 plt.title('counting bits')
 plt.show()


# if dice_side=2, is binomial distribution
# if dice_side>2 , is multinomial distribution
dice_side = 2
# if N becomes larger, then multinomial distribution will more like normal distribution
N = 100

counting = np.zeros(((dice_side - 1) * N + 1))

for i in range(30000):
 sum = 0
 for j in range(N):
  dice_result = np.random.randint(0, dice_side)
  sum += dice_result

 counting[sum] += 1

# normalization
counting /= np.sum(counting)
plot_bar_x()

以上这篇python 计算概率密度、累计分布、逆函数的例子就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持三水点靠木。

python 计算概率密度、累计分布、逆函数的例子

- Author -

心态与做事习惯决定人生高度

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python网络编程学习笔记(八)：XML生成与解析（DOM、ElementTree）

Jun 09 Python

python正则中最短匹配实现代码

Jan 16 Python

python 根据时间来生成唯一的字符串方法

Jan 14 Python

Python使用ctypes调用C/C++的方法

Jan 29 Python

Python socket模块实现的udp通信功能示例

Apr 10 Python

django用户登录验证的完整示例代码

Jul 21 Python

Python 合并多个TXT文件并统计词频的实现

Aug 23 Python

python 生成任意形状的凸包图代码

Apr 16 Python

python 将视频通过视频帧转换成时间实例

Apr 23 Python

基于python tkinter的点名小程序功能的实例代码

Aug 22 Python

Python 内存管理机制全面分析

Jan 16 Python

python基于爬虫+django，打造个性化API接口

Jan 21 Python

python GUI库图形界面开发之PyQt5窗口背景与不规则窗口实例

Feb 25 #Python

python统计函数库scipy.stats的用法解析

Feb 25 #Python

Python Websocket服务端通信的使用示例

Feb 25 #Python

Python GUI库PyQt5样式QSS子控件介绍

Feb 25 #Python

浅谈python累加求和+奇偶数求和_break_continue

Feb 25 #Python

Python GUI库PyQt5图形和特效样式QSS介绍

Feb 25 #Python

python 伯努利分布详解

Feb 25 #Python

You might like

使用VisualStudio开发php的图文设置方法

2010/08/21 PHP

php 中英文语言转换类代码

2011/08/11 PHP

使用PHP获取当前url路径的函数以及服务器变量

2013/06/29 PHP

PHP删除数组中空值的方法介绍

2014/04/14 PHP

Symfony页面的基本创建实例详解

2015/01/26 PHP

PHP Opcache安装和配置方法介绍

2015/05/28 PHP

用ASP将SQL搜索出来的内容导出为TXT的代码

2007/07/27 Javascript

JQuery 操作Javascript对象和数组的工具函数小结

2010/01/22 Javascript

子窗口、父窗口和Silverlight之间的相互调用

2010/08/16 Javascript

javascript模拟枚举的简单实例

2014/03/06 Javascript

webpack常用配置项配置文件介绍

2016/11/07 Javascript

nodejs 搭建简易服务器的图文教程(推荐)

2017/07/18 NodeJs

微信小程序获取session_key和openid的实例

2017/08/17 Javascript

JavaScript求一组数的最小公倍数和最大公约数常用算法详解【面向对象，回归迭代和循环】

2018/05/07 Javascript

三分钟学会用ES7中的Async/Await进行异步编程

2018/06/14 Javascript

jQuery 操作 HTML 元素和属性的方法

2018/11/12 jQuery

Vue数字输入框组件示例代码详解

2020/01/15 Javascript

纯JS开发baguetteBox.js响应式画廊插件

2020/06/28 Javascript

Vue+element+cookie记住密码功能的简单实现方法

2020/09/20 Javascript

Python使用xlrd读取Excel格式文件的方法

2015/03/10 Python

Python 迭代器与生成器实例详解

2017/05/18 Python

python实现机械分词之逆向最大匹配算法代码示例

2017/12/13 Python

Python使用numpy实现BP神经网络

2018/03/10 Python

flask中过滤器的使用详解

2018/08/01 Python

PythonPC客户端自动化实现原理(pywinauto)

2020/05/28 Python

TensorFlow的环境配置与安装教程详解（win10+GeForce GTX1060+CUDA 9.0+cuDNN7.3+tensorflow-gpu 1.12.0+python3.5.5）

2020/06/22 Python

Django admin组件的使用

2020/10/24 Python

FitFlop美国官网：英国符合人体工学的鞋类品牌

2018/10/05 全球购物

英国奢侈品牌时尚购物平台：Farfetch（支持中文）

2020/02/18 全球购物

麦当劳印度网上订餐：McDelivery

2020/03/16 全球购物

普通PHP程序员笔试题

2016/01/01 面试题

办公室主任主任岗位责任制

2014/02/11 职场文书

群众路线四风问题整改措施

2014/09/27 职场文书

员工工作表扬信

2015/05/05 职场文书

大学开学感言

2015/08/01 职场文书

win10滚动条自动往上跑怎么办?win10滚动条自动往上跑的解决方法

2022/08/05 数码科技