python机器学习理论与实战(二)决策树


Posted in Python onJanuary 19, 2018

        决策树也是有监督机器学习方法。 电影《无耻混蛋》里有一幕游戏,在德军小酒馆里有几个人在玩20问题游戏,游戏规则是一个设迷者在纸牌中抽出一个目标(可以是人,也可以是物),而猜谜者可以提问题,设迷者只能回答是或者不是,在几个问题(最多二十个问题)之后,猜谜者通过逐步缩小范围就准确的找到了答案。这就类似于决策树的工作原理。(图一)是一个判断邮件类别的工作方式,可以看出判别方法很简单,基本都是阈值判断,关键是如何构建决策树,也就是如何训练一个决策树。

python机器学习理论与实战(二)决策树

(图一)

构建决策树的伪代码如下:

Check if every item in the dataset is in the same class:
    If so return the class label
    Else 
      find the best feature to split the data
       split the dataset 
       create a branch node
       for each split
          call create Branch and add the result to the branch node

      return branch node

         原则只有一个,尽量使得每个节点的样本标签尽可能少,注意上面伪代码中一句说:find the best feature to split the data,那么如何find thebest feature?一般有个准则就是尽量使得分支之后节点的类别纯一些,也就是分的准确一些。如(图二)中所示,从海洋中捞取的5个动物,我们要判断他们是否是鱼,先用哪个特征?

python机器学习理论与实战(二)决策树

(图二)

         为了提高识别精度,我们是先用“离开陆地能否存活”还是“是否有蹼”来判断?我们必须要有一个衡量准则,常用的有信息论、基尼纯度等,这里使用前者。我们的目标就是选择使得分割后数据集的标签信息增益最大的那个特征,信息增益就是原始数据集标签基熵减去分割后的数据集标签熵,换句话说,信息增益大就是熵变小,使得数据集更有序。熵的计算如(公式一)所示:

python机器学习理论与实战(二)决策树

有了指导原则,那就进入代码实战阶段,先来看看熵的计算代码:

def calcShannonEnt(dataSet): 
  numEntries = len(dataSet) 
  labelCounts = {} 
  for featVec in dataSet: #the the number of unique elements and their occurance 
    currentLabel = featVec[-1] 
    if currentLabel not in labelCounts.keys(): labelCounts[currentLabel] = 0 
    labelCounts[currentLabel] += 1 #收集所有类别的数目,创建字典 
  shannonEnt = 0.0 
  for key in labelCounts: 
    prob = float(labelCounts[key])/numEntries 
    shannonEnt -= prob * log(prob,2) #log base 2 计算熵 
  return shannonEnt

有了熵的计算代码,接下来看依照信息增益变大的原则选择特征的代码:

def splitDataSet(dataSet, axis, value): 
  retDataSet = [] 
  for featVec in dataSet: 
    if featVec[axis] == value: 
      reducedFeatVec = featVec[:axis]   #chop out axis used for splitting 
      reducedFeatVec.extend(featVec[axis+1:]) 
      retDataSet.append(reducedFeatVec) 
  return retDataSet 
   
def chooseBestFeatureToSplit(dataSet): 
  numFeatures = len(dataSet[0]) - 1   #the last column is used for the labels 
  baseEntropy = calcShannonEnt(dataSet) 
  bestInfoGain = 0.0; bestFeature = -1 
  for i in range(numFeatures):    #iterate over all the features 
    featList = [example[i] for example in dataSet]#create a list of all the examples of this feature 
    uniqueVals = set(featList)    #get a set of unique values 
    newEntropy = 0.0 
    for value in uniqueVals: 
      subDataSet = splitDataSet(dataSet, i, value) 
      prob = len(subDataSet)/float(len(dataSet)) 
      newEntropy += prob * calcShannonEnt(subDataSet)    
    infoGain = baseEntropy - newEntropy   #calculate the info gain; ie reduction in entropy 
    if (infoGain > bestInfoGain):    #compare this to the best gain so far  #选择信息增益最大的代码在此 
      bestInfoGain = infoGain     #if better than current best, set to best 
      bestFeature = i 
  return bestFeature           #returns an integer

        从最后一个if可以看出,选择使得信息增益最大的特征作为分割特征,现在有了特征分割准则,继续进入一下个环节,如何构建决策树,其实就是依照最上面的伪代码写下去,采用递归的思想依次分割下去,直到执行完成就构建了决策树。代码如下:

def majorityCnt(classList): 
  classCount={} 
  for vote in classList: 
    if vote not in classCount.keys(): classCount[vote] = 0 
    classCount[vote] += 1 
  sortedClassCount = sorted(classCount.iteritems(), key=operator.itemgetter(1), reverse=True) 
  return sortedClassCount[0][0] 
 
def createTree(dataSet,labels): 
  classList = [example[-1] for example in dataSet] 
  if classList.count(classList[0]) == len(classList):  
    return classList[0]#stop splitting when all of the classes are equal 
  if len(dataSet[0]) == 1: #stop splitting when there are no more features in dataSet 
    return majorityCnt(classList) 
  bestFeat = chooseBestFeatureToSplit(dataSet) 
  bestFeatLabel = labels[bestFeat] 
  myTree = {bestFeatLabel:{}} 
  del(labels[bestFeat]) 
  featValues = [example[bestFeat] for example in dataSet] 
  uniqueVals = set(featValues) 
  for value in uniqueVals: 
    subLabels = labels[:]    #copy all of labels, so trees don't mess up existing labels 
    myTree[bestFeatLabel][value] = createTree(splitDataSet(dataSet, bestFeat, value),subLabels) 
  return myTree

用图二的样本构建的决策树如(图三)所示:

python机器学习理论与实战(二)决策树

(图三)

有了决策树,就可以用它做分类咯,分类代码如下:

def classify(inputTree,featLabels,testVec): 
  firstStr = inputTree.keys()[0] 
  secondDict = inputTree[firstStr] 
  featIndex = featLabels.index(firstStr) 
  key = testVec[featIndex] 
  valueOfFeat = secondDict[key] 
  if isinstance(valueOfFeat, dict):  
    classLabel = classify(valueOfFeat, featLabels, testVec) 
  else: classLabel = valueOfFeat 
  return classLabel

最后给出序列化决策树(把决策树模型保存在硬盘上)的代码:

def storeTree(inputTree,filename): 
  import pickle 
  fw = open(filename,'w') 
  pickle.dump(inputTree,fw) 
  fw.close() 
   
def grabTree(filename): 
  import pickle 
  fr = open(filename) 
  return pickle.load(fr)

优点:检测速度快

缺点:容易过拟合,可以采用修剪的方式来尽量避免

参考文献:machine learning in action

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
详解python使用递归、尾递归、循环三种方式实现斐波那契数列
Jan 16 Python
Python读取图片为16进制表示简单代码
Jan 19 Python
python语音识别实践之百度语音API
Aug 30 Python
Python3非对称加密算法RSA实例详解
Dec 06 Python
Python实现将多个空格换为一个空格.md的方法
Dec 20 Python
Python Django 命名空间模式的实现
Aug 09 Python
如何运行带参数的python脚本
Nov 15 Python
pycharm快捷键汇总
Feb 14 Python
15行Python代码实现免费发送手机短信推送消息功能
Feb 27 Python
python 爬虫基本使用——统计杭电oj题目正确率并排序
Oct 26 Python
python将下载到本地m3u8视频合成MP4的代码详解
Nov 24 Python
python使用tkinter实现透明窗体上绘制随机出现的小球(实例代码)
May 17 Python
Python三种遍历文件目录的方法实例代码
Jan 19 #Python
python机器学习理论与实战(一)K近邻法
Jan 28 #Python
python机器学习理论与实战(六)支持向量机
Jan 19 #Python
Python logging管理不同级别log打印和存储实例
Jan 19 #Python
python机器学习理论与实战(五)支持向量机
Jan 19 #Python
Python读取图片为16进制表示简单代码
Jan 19 #Python
Python实现pdf文档转txt的方法示例
Jan 19 #Python
You might like
汇总PHPmailer群发Gmail的常见问题
2016/02/24 PHP
PHP convert_uudecode()函数讲解
2019/02/14 PHP
Yii框架小部件(Widgets)用法实例详解
2020/05/15 PHP
一个对于Array的简单扩展
2006/10/03 Javascript
jQuery学习笔记之jQuery的事件
2010/12/22 Javascript
js 获取、清空input type="file"的值(示例代码)
2013/12/24 Javascript
sliderToggle在写jquery的计时器setTimeouter中不生效
2014/05/26 Javascript
jQuery中:file选择器用法实例
2015/01/04 Javascript
JavaScript获取文本框内选中文本的方法
2015/02/20 Javascript
jquery SweetAlert插件实现响应式提示框
2015/08/18 Javascript
jquery.validate 自定义验证方法及validate相关参数
2016/01/18 Javascript
BootStrap整体框架之基础布局组件
2016/12/15 Javascript
解决angularjs前后端分离调用接口传递中文时中文乱码的问题
2018/08/13 Javascript
微信小程序事件对象中e.target和e.currentTarget的区别详解
2019/05/08 Javascript
[43:32]2014 DOTA2华西杯精英邀请赛 5 25 LGD VS NewBee第一场
2014/05/26 DOTA
Python编写检测数据库SA用户的方法
2014/07/11 Python
Python中音频处理库pydub的使用教程
2017/06/07 Python
解决python 自动安装缺少模块的问题
2018/10/22 Python
python文字转语音的实例代码分析
2019/11/12 Python
通过实例解析Python RPC实现原理及方法
2020/07/07 Python
PyCharm+Miniconda3安装配置教程详解
2021/02/16 Python
HTML如何让IMG自动适应DIV容器大小的实现方法
2020/02/25 HTML / CSS
Pureology官网:为染色头发打造最好的产品
2019/09/13 全球购物
澳大利亚家具商店:Freedom
2020/12/17 全球购物
总经理助理的八要求
2013/11/12 职场文书
幼儿园教师培训制度
2014/01/16 职场文书
社区工作感言
2014/02/21 职场文书
企业办公室岗位职责
2014/03/12 职场文书
中学教师师德师风演讲稿
2014/08/22 职场文书
学校交通安全责任书
2014/08/25 职场文书
公司离职证明范本(汇总)
2014/09/10 职场文书
2014年干部作风建设总结
2014/10/23 职场文书
学校党的群众路线教育实践活动个人整改方案
2014/10/31 职场文书
公司租车协议书
2015/01/29 职场文书
田径运动会通讯稿
2015/07/18 职场文书
24句精辟的现实社会语录,句句扎心,道尽人性
2019/08/29 职场文书