编程 Python

EM算法的python实现的方法步骤

Posted in Python onJanuary 02, 2018

前言：前一篇文章大概说了EM算法的整个理解以及一些相关的公式神马的，那些数学公式啥的看完真的是忘完了，那就来用代码记忆记忆吧！接下来将会对python版本的EM算法进行一些分析。

EM的python实现和解析

引入问题（双硬币问题）

假设有两枚硬币A、B，以相同的概率随机选择一个硬币，进行如下的抛硬币实验：共做5次实验，每次实验独立的抛十次，结果如图中a所示，例如某次实验产生了H、T、T、T、H、H、T、H、T、H，H代表正面朝上。

假设试验数据记录员可能是实习生，业务不一定熟悉，造成a和b两种情况

a表示实习生记录了详细的试验数据，我们可以观测到试验数据中每次选择的是A还是B

b表示实习生忘了记录每次试验选择的是A还是B，我们无法观测实验数据中选择的硬币是哪个

问在两种情况下分别如何估计两个硬币正面出现的概率？

以上的针对于b实习生的问题其实和三硬币问题类似，只是这里把三硬币中第一个抛硬币的选择换成了实习生的选择。

对于已知是A硬币还是B硬币抛出的结果的时候，可以直接采用概率的求法来进行求解。对于含有隐变量的情况，也就是不知道到底是A硬币抛出的结果还是B硬币抛出的结果的时候，就需要采用EM算法进行求解了。如下图：

EM算法的python实现的方法步骤

其中的EM算法的第一步就是初始化的过程，然后根据这个参数得出应该产生的结果。

构建观测数据集

针对这个问题，首先采集数据，用1表示H（正面），0表示T（反面）：

#硬币投掷结果
observations = numpy.array([[1,0,0,0,1,1,0,1,0,1],
            [1,1,1,1,0,1,1,1,0,1],
            [1,0,1,1,1,1,1,0,1,1],
            [1,0,1,0,0,0,1,1,0,0],
            [0,1,1,1,0,1,1,1,0,1]])

第一步：参数的初始化

参数赋初值

EM算法的python实现的方法步骤

第一个迭代的E步

抛硬币是一个二项分布，可以用scipy中的binom来计算。对于第一行数据，正反面各有5次，所以：

#二项分布求解公式
contribution_A = scipy.stats.binom.pmf(num_heads,len_observation,theta_A)
contribution_B = scipy.stats.binom.pmf(num_heads,len_observation,theta_B)

将两个概率正规化，得到数据来自硬币A，B的概率：

weight_A = contribution_A / (contribution_A + contribution_B)
weight_B = contribution_B / (contribution_A + contribution_B)

这个值类似于三硬币模型中的μ，只不过多了一个下标，代表是第几行数据（数据集由5行构成）。同理，可以算出剩下的4行数据的μ。

有了μ，就可以估计数据中AB分别产生正反面的次数了。μ代表数据来自硬币A的概率的估计，将它乘上正面的总数，得到正面来自硬币A的总数，同理有反面，同理有B的正反面。

#更新在当前参数下A，B硬币产生的正反面次数
 counts['A']['H'] += weight_A * num_heads
 counts['A']['T'] += weight_A * num_tails
 counts['B']['H'] += weight_B * num_heads
 counts['B']['T'] += weight_B * num_tails

第一个迭代的M步

当前模型参数下，AB分别产生正反面的次数估计出来了，就可以计算新的模型参数了：

new_theta_A = counts['A']['H']/(counts['A']['H'] + counts['A']['T'])
new_theta_B = counts['B']['H']/(counts['B']['H'] + counts['B']['T'])

于是就可以整理一下，给出EM算法单个迭代的代码：

def em_single(priors,observations):

  """
  EM算法的单次迭代
  Arguments
  ------------
  priors:[theta_A,theta_B]
  observation:[m X n matrix]

  Returns
  ---------------
  new_priors:[new_theta_A,new_theta_B]
  :param priors:
  :param observations:
  :return:
  """
  counts = {'A': {'H': 0, 'T': 0}, 'B': {'H': 0, 'T': 0}}
  theta_A = priors[0]
  theta_B = priors[1]
  #E step
  for observation in observations:
    len_observation = len(observation)
    num_heads = observation.sum()
    num_tails = len_observation-num_heads
    #二项分布求解公式
    contribution_A = scipy.stats.binom.pmf(num_heads,len_observation,theta_A)
    contribution_B = scipy.stats.binom.pmf(num_heads,len_observation,theta_B)

    weight_A = contribution_A / (contribution_A + contribution_B)
    weight_B = contribution_B / (contribution_A + contribution_B)
    #更新在当前参数下A，B硬币产生的正反面次数
    counts['A']['H'] += weight_A * num_heads
    counts['A']['T'] += weight_A * num_tails
    counts['B']['H'] += weight_B * num_heads
    counts['B']['T'] += weight_B * num_tails

  # M step
  new_theta_A = counts['A']['H'] / (counts['A']['H'] + counts['A']['T'])
  new_theta_B = counts['B']['H'] / (counts['B']['H'] + counts['B']['T'])
  return [new_theta_A,new_theta_B]

EM算法主循环

给定循环的两个终止条件：模型参数变化小于阈值；循环达到最大次数，就可以写出EM算法的主循环了

def em(observations,prior,tol = 1e-6,iterations=10000):
  """
  EM算法
  ：param observations :观测数据
  ：param prior：模型初值
  ：param tol：迭代结束阈值
  ：param iterations：最大迭代次数
  ：return：局部最优的模型参数
  """
  iteration = 0;
  while iteration < iterations:
    new_prior = em_single(prior,observations)
    delta_change = numpy.abs(prior[0]-new_prior[0])
    if delta_change < tol:
      break
    else:
      prior = new_prior
      iteration +=1
  return [new_prior,iteration]

调用

给定数据集和初值，就可以调用EM算法了：

print em(observations,[0.6,0.5])

得到

[[0.72225028549925996, 0.55543808993848298], 36]

我们可以改变初值，试验初值对EM算法的影响。

print em(observations,[0.5,0.6])

结果：

[[0.55543727869042425, 0.72225099139214621], 37]

看来EM算法还是很健壮的。如果把初值设为相等会怎样？

print em(observations,[0.3,0.3])

输出：[[0.64000000000000001, 0.64000000000000001], 1]

显然，两个值相加不为1的时候就会破坏这个EM函数。

换一下初值：

print em(observations,[0.99999,0.00001])

输出：[[0.72225606292866507, 0.55543145006184214], 33]

EM算法对于参数的改变还是有一定的健壮性的。

以上是根据前人写的博客进行学习的~可以自己动手实现以下，对于python练习还是有作用的。希望对大家的学习有所帮助，也希望大家多多支持三水点靠木。

EM算法的python实现的方法步骤

- Author -

LilyNothing

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python使用ctypes模块调用windowsapi获取系统版本示例

Apr 17 Python

Python中itertools模块用法详解

Sep 25 Python

python实用代码片段收集贴

Jun 03 Python

Python网络编程 Python套接字编程

Sep 13 Python

python模块之time模块(实例讲解)

Sep 13 Python

python中不能连接超时的问题及解决方法

Jun 10 Python

Python实现的从右到左字符串替换方法示例

Jul 06 Python

Python容器使用的5个技巧和2个误区总结

Sep 26 Python

python3 实现函数写文件路径的正确方法

Nov 27 Python

sklearn线性逻辑回归和非线性逻辑回归的实现

Jun 09 Python

六种酷炫Python运行进度条效果的实现代码

Jul 17 Python

Python 使用office365邮箱的示例

Oct 29 Python

Python+树莓派+YOLO打造一款人工智能照相机

Jan 02 #Python

matplotlib绘制动画代码示例

Jan 02 #Python

Python+matplotlib+numpy实现在不同平面的二维条形图

Jan 02 #Python

Python 实现淘宝秒杀的示例代码

Jan 02 #Python

python基于twisted框架编写简单聊天室

Jan 02 #Python

python http接口自动化脚本详解

Jan 02 #Python

详解用python实现简单的遗传算法

Jan 02 #Python

You might like

留言板翻页的实现详解

2006/10/09 PHP

一个好用的分页函数

2006/11/16 PHP

php addslashes 利用递归实现使用反斜线引用字符串

2013/08/05 PHP

php定界符

2014/06/19 PHP

PHP实现通过中文字符比率来判断垃圾评论的方法

2014/10/20 PHP

初识laravel5

2015/03/02 PHP

PHP实现恶意DDOS攻击避免带宽占用问题方法

2015/05/27 PHP

40款非常有用的 jQuery 插件推荐（系列一）

2011/12/21 Javascript

限制上传文件大小和格式的jQuery插件实例

2015/01/24 Javascript

js+div实现文字滚动和图片切换效果代码

2015/08/27 Javascript

laypage分页控件使用实例详解

2016/05/19 Javascript

vue.js 实现a标签href里添加参数

2019/11/12 Javascript

vue 实现超长文本截取,悬浮框提示

2020/07/29 Javascript

Vue实现小购物车功能

2020/12/21 Vue.js

[01:10:03]OG vs EG 2018国际邀请赛淘汰赛BO3 第三场 8.23

2018/08/24 DOTA

Python模块学习 filecmp 文件比较

2012/08/27 Python

python中wx将图标显示在右下角的脚本代码

2013/03/08 Python

python定时器使用示例分享

2014/02/16 Python

跟老齐学Python之Python安装

2014/09/12 Python

python通过正则查找微博@(at)用户的方法

2015/03/13 Python

python3写爬取B站视频弹幕功能

2017/12/22 Python

tensorflow入门之训练简单的神经网络方法

2018/02/26 Python

对Python+opencv将图片生成视频的实例详解

2019/01/08 Python

Python中的枚举类型示例介绍

2019/01/09 Python

opencv python 图像轮廓/检测轮廓/绘制轮廓的方法

2019/07/03 Python

使用python创建Excel工作簿及工作表过程图解

2020/05/27 Python

教你如何用python操作摄像头以及对视频流的处理

2020/10/12 Python

python空元组在all中返回结果详解

2020/12/15 Python

前端实现背景虚化但内容清晰且自适应的实例代码

2019/08/01 HTML / CSS

美国室内和室外装饰花盆购物网站：ePlanters

2019/03/22 全球购物

前台文员我鉴定

2014/01/12 职场文书

2014年检察院个人工作总结

2014/12/09 职场文书

2015大学生自我评价范文

2015/03/03 职场文书

护士自荐信怎么写

2015/03/06 职场文书

MySQL表的增删改查(基础)

2021/04/05 MySQL

Go语言基础知识点介绍

2021/07/04 Golang