Python3.0 实现决策树算法的流程


Posted in Python onAugust 08, 2019

决策树的一般流程

检测数据集中的每个子项是否属于同一个分类

if so return 类标签
Else

  寻找划分数据集的最好特征

    划分数据集

   创建分支 节点

from math import log
import operator
#生成样本数据集
def createDataSet():
  dataSet = [[1,1,'yes'],
        [1,1,'yes'],
        [1,0,'no'],
        [0,1,'no'],
        [0,1,'no']]
  labels = ['no surfacing','flipper']
  return dataSet,labels
# 计算香农熵 香农 大神必须要膜拜啊,信息界的根目录人物啊
# no surfacing 指的是 不浮出水面能否生存 1 标识 是 0 指的是否
# flipper 指的是是否有脚
# yes no指的是否是鱼类
def calcShannonEnt(dataSet):
  numEntries = len(dataSet) # 用上面的createDataSet dataSet 这个值就是5
  #定义标签字典
  labelCounts = {}
  # 为所有可能的分类创建字典
  for featVec in dataSet:
    currentLabel = featVec[-1] #这个-1指的是去取最后一个维度 对应数据dataSet 这里取的是yes和no
    if currentLabel not in labelCounts.keys():
      # 如果当前分类标签不在 标签字典中
      labelCounts[currentLabel] = 0
    # 其他情况 分类标签分类加1
    labelCounts[currentLabel] += 1
  #定义香农熵 以2为底数求对数
  shannonEnt = 0.0
  for key in labelCounts:
    #计算 yes 或者No 出现的概率
    pro = float(labelCounts[key])/numEntries
    # 计算香农熵
    shannonEnt -= pro*log(pro,2)
  return shannonEnt
#dataSet是待划分的数据集, 划分数据集的特征 axis 特征的返回值value
#最后是创建了一个新的列表对象
def splitDataSet(dataSet, axis , value):
  # 创建新list对象
  retDataSet = []
  for featVec in dataSet:
    if featVec[axis] == value:
      reducedFeatVec = featVec[:axis]
      reducedFeatVec.extend(featVec[axis+1:])
      retDataSet.append(reducedFeatVec)
  return retDataSet
# 选择最好的特征值进行数据集划分
def chooseBestFeatureToSplit(dataSet):
  # len(dataSet[0])是计算这一行有多少列,即有多少个特征值
  numFeatures = len(dataSet[0])-1 # -1 是最后一个特征值就不要记录在内了,算baseEntrop的时候已经算了最后一个特征值yes no
  baseEntropy = calcShannonEnt(dataSet)
  bestInfoGain = 0.0
  bestFeature = -1
  for i in range(numFeatures):
    #创建唯一的分类标签列表 也就是说提取dataSet每一行第i个值 就提取dat
    featList = [example[i] for example in dataSet]
    # 取出有几种特征值
    uniqueVals = set(featList)
    newEntropy = 0.0
    for value in uniqueVals:
      #创建特征值的子数据集
      subDataSet = splitDataSet(dataSet,i, value)
      #计算该特征值数据对总数在数据对总数出现的概率
      pro = len(subDataSet)/float(len(dataSet))
      #计算分割出来的子集香农熵
      newEntropy += pro*calcShannonEnt(subDataSet)
    #计算信息增益 得到最好的特征值 这个理论是这样的g(D,A) = H(D)-H(D/A)
    infoGain = baseEntropy-newEntropy
    #取出最大的信息增益,此时特征值最大
    if(infoGain >bestInfoGain):
      bestInfoGain = infoGain
      bestFeature = i
  return bestFeature
'''
#构建决策树是根据特征值的消耗来计算的,如果后面的特征值已经全部用完了
但是还没有分出结果,这个时候就需要使用多数表决方式计算节点分类
最后返回最大的分类
'''
def majorityCnt(classList):
  # 分类的字典
  classCount = {}
  for vote in range(classList):
    #如果不在 分类字典中
    if vote not in classCount.keys(): classCount[vote] = 0
    classCount[vote] += 1
    # 根据出现的次数大到小排序
    sortedClassCount = sorted(classCount.items(),key=operator.itemgetter(1),reverse=True)
  return sortedClassCount[0][0]
#创建决策树
def createTree(dataSet, labels):
  # 获取数据样本每组最后一组的特征值 这里是yes,no
  classList = [example[-1] for example in dataSet]
  # 如果说这个classList 全部都是 yes 或者全部是no 那肯定子返回yes 或者no
  if(classList.count(classList[0]) == len(classList)):
    return classList[0]
  #如果遍历完所有的特征返回出现次数最多的
  #是用消耗特征值的方式进行构造决策树的,每次会消掉一个特征值
  if len(dataSet[0]) == 1:
    return majorityCnt(classList)
  #选择最好的特征值
  bestFeat = chooseBestFeatureToSplit(dataSet)
  bestFeatLabel = labels[bestFeat]
  myTree = {bestFeatLabel:{}}
  # 删除labels中的一特征值
  del(labels[bestFeat])
  #找到特征值那一列
  featValues = [example[bestFeat] for example in dataSet]
  uniqueVals = set(featValues)
  for value in uniqueVals:
    # labels列表的赋值
    subLabels = labels[:]
    myTree[bestFeatLabel][value]=createTree(splitDataSet(dataSet,bestFeat,value),subLabels)
  return myTree
dataSet,lables = createDataSet()
shannonEnt= calcShannonEnt(dataSet)
my = createTree(dataSet,lables)
print(my)

总结

以上所述是小编给大家介绍的Python3.0 实现决策树算法的流程,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对三水点靠木网站的支持!
如果你觉得本文对你有帮助,欢迎转载,烦请注明出处,谢谢!

Python 相关文章推荐
Python open()文件处理使用介绍
Nov 30 Python
python通过urllib2获取带有中文参数url内容的方法
Mar 13 Python
python使用psutil模块获取系统状态
Aug 27 Python
python实现简单点对点(p2p)聊天
Sep 13 Python
python编程嵌套函数实例代码
Feb 11 Python
python numpy 显示图像阵列的实例
Jul 02 Python
python+influxdb+shell编写区域网络状况表
Jul 27 Python
python高效过滤出文件夹下指定文件名结尾的文件实例
Oct 21 Python
python ipset管理 增删白名单的方法
Jan 14 Python
Python使用指定端口进行http请求的例子
Jul 25 Python
Python坐标线性插值应用实现
Nov 13 Python
python的time模块和datetime模块实例解析
Nov 29 Python
Python使用ffmpy将amr格式的音频转化为mp3格式的例子
Aug 08 #Python
Django rest framework jwt的使用方法详解
Aug 08 #Python
使用Python实现文字转语音并生成wav文件的例子
Aug 08 #Python
django基于restframework的CBV封装详解
Aug 08 #Python
python 控制Asterisk AMI接口外呼电话的例子
Aug 08 #Python
python 实现手机自动拨打电话的方法(通话压力测试)
Aug 08 #Python
Python generator生成器和yield表达式详解
Aug 08 #Python
You might like
深入array multisort排序原理的详解
2013/06/18 PHP
WAMP环境中扩展oracle函数库(oci)
2015/06/26 PHP
Thinkphp5.0框架使用模型Model的获取器、修改器、软删除数据操作示例
2019/10/11 PHP
通过PHP实现获取访问用户IP
2020/05/09 PHP
JavaScript调用Activex控件的事件的实现方法
2010/04/11 Javascript
JavaScript Title、alt提示(Tips)实现源码解读
2010/12/12 Javascript
详解JavaScript函数绑定
2013/08/18 Javascript
js如何获取兄弟、父类等节点
2014/01/06 Javascript
高性能JavaScript DOM编程(1)
2015/08/11 Javascript
浅析js绑定事件的常用方法
2016/05/15 Javascript
JS实现图片预加载之无序预加载功能代码
2017/05/12 Javascript
Vue中 v-if 和v-else-if页面加载出现闪现的问题及解决方法
2018/10/12 Javascript
深入浅析js原型链和vue构造函数
2018/10/25 Javascript
在vue项目中使用Jquery-contextmenu插件的步骤讲解
2019/01/27 jQuery
vue element-ui之怎么封装一个自己的组件的详解
2019/05/20 Javascript
基于Vue 撸一个指令实现拖拽功能
2019/10/09 Javascript
vue 导出文件,携带请求头token操作
2020/09/10 Javascript
如何使用gpu.js改善JavaScript的性能
2020/12/01 Javascript
[33:42]LGD vs OG 2018国际邀请赛小组赛BO2 第一场 8.16
2018/08/17 DOTA
python利用elaphe制作二维条形码实现代码
2012/05/25 Python
python操作数据库之sqlite3打开数据库、删除、修改示例
2014/03/13 Python
Linux下Python获取IP地址的代码
2014/11/30 Python
Python cookbook(数据结构与算法)在字典中将键映射到多个值上的方法
2018/02/18 Python
python实现杨氏矩阵查找
2019/03/02 Python
python绘制规则网络图形实例
2019/12/09 Python
python列表生成器迭代器实例解析
2019/12/19 Python
英国领先的电视购物零售商:Ideal World
2019/03/18 全球购物
越南综合购物网站:Lazada越南
2019/06/10 全球购物
Skyscanner香港:机票比价, 平机票和廉价航空机票预订
2020/02/07 全球购物
罗技英国官方网站:Logitech UK
2020/11/03 全球购物
什么是事务?事务有哪些性质?
2012/03/11 面试题
优秀德育工作者事迹材料
2014/05/07 职场文书
债务纠纷委托书范本
2014/10/14 职场文书
2015年超市工作总结
2015/04/09 职场文书
MySQL索引知识的一些小妙招总结
2021/05/10 MySQL
mysql5.7使用binlog 恢复数据的方法
2021/06/03 MySQL