编程 Python

Python决策树之基于信息增益的特征选择示例

Posted in Python onJune 25, 2018

本文实例讲述了Python决策树之基于信息增益的特征选择。分享给大家供大家参考，具体如下：

基于信息增益的特征选取是一种广泛使用在决策树(decision tree)分类算法中用到的特征选取。该特征选择的方法是通过计算每个特征值划分数据集获得信息增益，通过比较信息增益的大小选取合适的特征值。

一、定义

1.1 熵

信息的期望值，可理解为数据集的无序度，熵的值越大，表示数据越无序，公式如下：

Python决策树之基于信息增益的特征选择示例

其中H表示该数据集的熵值， pi表示类别i的概率，若所有数据集只有一个类别，那么pi=1，H=0。因此H=0为熵的最小值，表示该数据集完全有序。

1.2 信息增益

熵的减少或者是数据无序度的减少。

二、流程

1、计算原始数据的信息熵H1

2、选取一个特征，根据特征值对数据进行分类，再对每个类别分别计算信息熵，按比例求和，得出这种划分方式的信息熵H2

3、计算信息增益：

infoGain = H1 - H2

4、根据2，3计算所有特征属性对应的信息增益，保留信息增益较大的特征属性。

三、实例

海洋生物数据

被分类项\特征	不浮出水面是否可以生存	是否有脚蹼	属于鱼类
1	是	是	是
2	是	是	是
3	是	否	否
4	否	是	否
5	否	是	否

3.1 原始数据信息熵

p(是鱼类) = p1 =0.4
p(非鱼类) = p2 =0.6

通过信息熵公式可得原始数据信息熵 H1 = 0.97095

3.2 根据特征分类计算信息熵

选择'不服出水面是否可以生存'作为分析的特征属性

可将数据集分为[1,2,3]与[4,5]，分别占0.6和0.4。

[1,2,3]可计算该类数据信息熵为 h1=0.918295834054

[4,5] 可计算该类数据信息熵为 h2=0

计算划分后的信息熵 H2 = 0.6 * h1 + 0.4 * h2 = 0.550977500433

3.3 计算信息增益

infoGain_0 = H1-H2 = 0.419973094022

3.4 特征选择

同理可得对特征'是否有脚蹼'该特征计算信息增益 infoGain_1 = 0.170950594455

比较可得，'不服出水面是否可以生存'所得的信息增益更大，因此在该实例中，该特征是最好用于划分数据集的特征

四、代码

# -*- coding:utf-8 -*-
#! python2
import numpy as np
from math import log
data_feature_matrix = np.array([[1, 1],
                [1, 1],
                [1, 0],
                [0, 1],
                [0, 1]]) # 特征矩阵
category = ['yes', 'yes', 'no', 'no', 'no'] # 5个对象分别所属的类别
def calc_shannon_ent(category_list):
  """
  :param category_list: 类别列表
  :return: 该类别列表的熵值
  """
  label_count = {} # 统计数据集中每个类别的个数
  num = len(category_list) # 数据集个数
  for i in range(num):
    try:
      label_count[category_list[i]] += 1
    except KeyError:
      label_count[category_list[i]] = 1
  shannon_ent = 0.
  for k in label_count:
    prob = float(label_count[k]) / num
    shannon_ent -= prob * log(prob, 2) # 计算信息熵
  return shannon_ent
def split_data(feature_matrix, category_list, feature_index, value):
  """
  筛选出指定特征值所对应的类别列表
  :param category_list: 类别列表
  :param feature_matrix: 特征矩阵
  :param feature_index: 指定特征索引
  :param value: 指定特征属性的特征值
  :return: 符合指定特征属性的特征值的类别列表
  """
  # feature_matrix = np.array(feature_matrix)
  ret_index = np.where(feature_matrix[:, feature_index] == value)[0] # 获取符合指定特征值的索引
  ret_category_list = [category_list[i] for i in ret_index] # 根据索引取得指定的所属类别，构建为列表
  return ret_category_list
def choose_best_feature(feature_matrix, category_list):
  """
  根据信息增益获取最优特征
  :param feature_matrix: 特征矩阵
  :param category_list: 类别列表
  :return: 最优特征对应的索引
  """
  feature_num = len(feature_matrix[0]) # 特征个数
  data_num = len(category_list) # 数据集的个数
  base_shannon_ent = calc_shannon_ent(category_list=category_list) # 原始数据的信息熵
  best_info_gain = 0 # 最优信息增益
  best_feature_index = -1 # 最优特征对应的索引
  for f in range(feature_num):
    uni_value_list = set(feature_matrix[:, f]) # 该特征属性所包含的特征值
    new_shannon_ent = 0.
    for value in uni_value_list:
      sub_cate_list = split_data(feature_matrix=feature_matrix, category_list=category_list, feature_index=f, value=value)
      prob = float(len(sub_cate_list)) / data_num
      new_shannon_ent += prob * calc_shannon_ent(sub_cate_list)
    info_gain = base_shannon_ent - new_shannon_ent # 信息增益
    print '初始信息熵为：', base_shannon_ent, '按照特征%i分类后的信息熵为：' % f, new_shannon_ent, '信息增益为：', info_gain
    if info_gain > best_info_gain:
      best_info_gain = info_gain
      best_feature_index = f
  return best_feature_index
if __name__ == '__main__':
  best_feature = choose_best_feature(data_feature_matrix, category)
  print '最好用于划分数据集的特征为：', best_feature

运行结果：

初始信息熵为： 0.970950594455 按照特征0分类后的信息熵为： 0.550977500433 信息增益为： 0.419973094022
初始信息熵为： 0.970950594455 按照特征1分类后的信息熵为： 0.8 信息增益为： 0.170950594455
最好用于划分数据集的特征为： 0

希望本文所述对大家Python程序设计有所帮助。

Python决策树之基于信息增益的特征选择示例

- Author -

Eric Chan

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Eclipse中Python开发环境搭建简单教程

Mar 23 Python

Python 包含汉字的文件读写之每行末尾加上特定字符

Dec 12 Python

利用python实现简单的循环购物车功能示例代码

Jul 05 Python

python生成每日报表数据(Excel)并邮件发送的实例

Feb 03 Python

Python命令行click参数用法解析

Dec 19 Python

python GUI库图形界面开发之PyQt5树形结构控件QTreeWidget详细使用方法与实例

Mar 02 Python

解决keras模型保存h5文件提示无此目录问题

Jul 01 Python

python中查看.db文件中表格的名字及表格中的字段操作

Jul 07 Python

django有哪些好处和优点

Sep 01 Python

Python爬虫爬取有道实现翻译功能

Nov 27 Python

python 基于opencv去除图片阴影

Jan 26 Python

python源码剖析之PyObject详解

May 18 Python

python实现逆序输出一个数字的示例讲解

Jun 25 #Python

详解Python 数据库的Connection、Cursor两大对象

Jun 25 #Python

python逆序打印各位数字的方法

Jun 25 #Python

python爬虫的数据库连接问题【推荐】

Jun 25 #Python

python让列表倒序输出的实例

Jun 25 #Python

python实现将一个数组逆序输出的方法

Jun 25 #Python

Python机器学习库scikit-learn安装与基本使用教程

Jun 25 #Python

You might like

利用Ffmpeg获得flv视频缩略图和视频时间的代码

2011/09/15 PHP

php通过pecl方式安装扩展的实例讲解

2018/02/02 PHP

jQuery)扩展jQuery系列之一模拟alert，confirm（一）

2010/12/04 Javascript

javaScript arguments 对象使用介绍

2013/10/18 Javascript

js获取指定日期周数以及星期几的小例子

2014/06/27 Javascript

javascript入门教程基础篇

2015/11/16 Javascript

Bootstrap每天必学之导航条(二)

2016/03/01 Javascript

Jquery组件easyUi实现选项卡切换示例

2016/08/23 Javascript

jQuery实现发送验证码并60秒倒计时功能

2016/11/25 Javascript

Bootstrap CSS组件之输入框组

2016/12/17 Javascript

Javascript中的 “&” 和 “|” 详解

2017/02/02 Javascript

浅谈angular4生命周期钩子

2017/09/05 Javascript

vue组件watch属性实例讲解

2017/11/07 Javascript

angular6的table组件开发的实现示例

2018/12/26 Javascript

解决LayUI数据表格复选框不居中显示的问题

2019/09/25 Javascript

python实现按行切分文本文件的方法

2016/04/18 Python

Python Nose框架编写测试用例方法

2017/10/26 Python

Python爬虫获取页面所有URL链接过程详解

2020/06/04 Python

django 装饰器检测登录状态操作

2020/07/02 Python

Html5 Canvas 实现一个“刮刮乐”游戏

2019/09/05 HTML / CSS

购买限量版收藏品、珠宝和礼品：Bradford Exchange

2016/09/23 全球购物

介绍一下RMI的基本概念

2016/12/17 面试题

JavaScript实现页面动态验证码的实现示例

2021/03/23 Javascript

物业公司采购员岗位职责

2013/12/31 职场文书

农村党支部先进事迹

2014/01/14 职场文书

初中生操行评语大全

2014/04/24 职场文书

优秀本科毕业生自荐信

2014/07/04 职场文书

2014年学生党支部工作总结

2014/12/20 职场文书

优秀高中学生评语

2014/12/30 职场文书

幼儿园父亲节活动总结

2015/02/12 职场文书

2015年党员创先争优公开承诺书

2015/04/27 职场文书

2015年公路路政个人工作总结

2015/07/24 职场文书

《小乌鸦爱妈妈》教学反思

2016/02/19 职场文书

2016大学生优秀志愿者事迹材料

2016/02/25 职场文书

javascript Number 与 Math对象的介绍

2021/11/17 Javascript

html中相对位置与绝对位置的具体使用

2022/05/15 HTML / CSS