pandas:get_dummies()与pd.factorize()的用法及区别说明


Posted in Python onMay 21, 2021

1.get_dummies()

pandas.get_dummies(data, prefix=None, prefix_sep='_', dummy_na=False, columns=None,sparse=False, drop_first=False):Convert categorical variable into dummy/indicator variables

>>> import pandas as pd
>>> s = pd.Series(list('abca'))
>>> pd.get_dummies(s)
   a  b  c
0  1  0  0
1  0  1  0
2  0  0  1
3  1  0  0

2.pd.factorize()

pandas.factorize(values, sort=False, order=None, na_sentinel=-1,size_hint=None):Encode input values as an enumerated type or categorical variable

Series.factorize(sort=False, na_sentinel=-1):Encode the object as an enumerated type or categorical variable

Pandas有一个方法叫做factorize(),它可以创建一些数字,来表示类别变量,对每一个类别映射一个ID,这种映射最后只生成一个特征,不像dummy那样生成多个特征。

Parameters:

sort : boolean, default False

Sort by values

na_sentinel: int, default -1

Value to mark “not found”

Returns:

labels : the indexer to the original array

uniques : the unique Index

labels:对应的编码array

uniques:需要编码的类型

补充:pandas.get_dummies 的使用及含义

get_dummies 是利用pandas实现one hot encode的方式

get_dummies参数如下:

pandas.get_dummies(data,prefix = None,prefix_sep ='_',dummy_na = False,columns = None,sparse = False,drop_first = False,dtype = None )

data : array-like,Series或DataFrame

prefix :string,字符串列表或字符串dict,默认为None,

用于追加DataFrame列名的字符串。在DataFrame上调用get_dummies时,传递一个长度等于列数的列表。或者,前缀 可以是将列名称映射到前缀的字典。

prefix_sep : string,默认为'_'

如果附加前缀,分隔符/分隔符要使用。或者传递与前缀一样的列表或字典。

dummy_na : bool,默认为False

如果忽略False NaN,则添加一列以指示NaN。

columns : 类似列表,默认为无

要编码的DataFrame中的列名称。如果列是None,那么所有与列 对象或类别 D型细胞将被转换。

sparse : bool,默认为False

伪编码列是否应由SparseArray(True)或常规NumPy数组(False)支持。

drop_first : bool,默认为False

是否通过删除第一级别从k分类级别获得k-1个假人。

版本0.18.0中的新功能。

dtype: D型,默认np.uint8

新列的数据类型。只允许一个dtype。

版本0.23.0中的新功能。

实例

pandas:get_dummies()与pd.factorize()的用法及区别说明

prefix自定义前缀

pandas:get_dummies()与pd.factorize()的用法及区别说明

以上为个人经验,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
在Python中操作字符串之rstrip()方法的使用
May 19 Python
python搭建虚拟环境的步骤详解
Sep 27 Python
利用信号如何监控Django模型对象字段值的变化详解
Nov 27 Python
Python实现通讯录功能
Feb 22 Python
python XlsxWriter模块创建aexcel表格的实例讲解
May 03 Python
使用Python3+PyQT5+Pyserial 实现简单的串口工具方法
Feb 13 Python
Pandas之Fillna填充缺失数据的方法
Jun 25 Python
Python文件操作中进行字符串替换的方法(保存到新文件/当前文件)
Jun 28 Python
python orm 框架中sqlalchemy用法实例详解
Feb 02 Python
简单了解Java Netty Reactor三种线程模型
Apr 26 Python
Python xlrd/xlwt 创建excel文件及常用操作
Sep 24 Python
利用python批量爬取百度任意类别的图片的实现方法
Oct 07 Python
python spilt()分隔字符串的实现示例
教你用python实现一个无界面的小型图书管理系统
一篇文章带你搞懂Python类的相关知识
Python深度学习之Pytorch初步使用
我对PyTorch dataloader里的shuffle=True的理解
Python快速优雅的批量修改Word文档样式
Django migrate报错的解决方案
You might like
php-perl哈希算法实现(times33哈希算法)
2013/12/30 PHP
php+mysqli批量查询多张表数据的方法
2015/01/29 PHP
PHP单例模式应用示例【多次连接数据库只实例化一次】
2018/12/18 PHP
Avengerls vs Newbee BO3 第一场2.18
2021/03/10 DOTA
基于jquery的点击链接插入链接内容的代码
2012/07/31 Javascript
引用外部js乱码问题分析及解决方案
2013/04/12 Javascript
原始XMLHttpRequest方法详情回顾
2013/11/28 Javascript
ECMAScript5中的对象存取器属性:getter和setter介绍
2014/12/08 Javascript
自定义函数实现IE7与IE8不兼容js中trim函数的问题
2015/02/03 Javascript
js实现仿网易点击弹出提示同时背景变暗效果
2015/08/13 Javascript
Javascript中replace()小结
2015/09/30 Javascript
javascript实现dom元素可拖动
2016/03/21 Javascript
JS去除空格和换行的正则表达式(推荐)
2016/06/14 Javascript
js实现省份下拉菜单效果
2017/02/15 Javascript
Nodejs模块载入运行原理
2018/02/23 NodeJs
JavaScript满天星导航栏实现方法
2018/03/08 Javascript
详解NodeJS Https HSM双向认证实现
2019/03/12 NodeJs
详解使用JWT实现单点登录(完全跨域方案)
2019/08/02 Javascript
layer页面跳转,获取html子节点元素的值方法
2019/09/27 Javascript
Bootstrap实现模态框效果
2019/09/30 Javascript
Django ManyToManyField 跨越中间表查询的方法
2018/12/18 Python
Python删除n行后的其他行方法
2019/01/28 Python
Python read函数按字节(字符)读取文件的实现
2019/07/03 Python
python多线程共享变量的使用和效率方法
2019/07/16 Python
python tkinter之 复选、文本、下拉的实现
2020/03/04 Python
学习Python列表的基础知识汇总
2020/03/10 Python
通过自学python能找到工作吗
2020/06/21 Python
法国二手MacBook销售网站:Okamac
2019/03/18 全球购物
护士优质服务演讲稿
2014/08/26 职场文书
工伤事故赔偿协议书范文
2014/09/24 职场文书
公安民警正风肃纪剖析材料
2014/10/10 职场文书
走近毛泽东观后感
2015/06/04 职场文书
新闻简讯格式及范文
2015/07/22 职场文书
深入理解以DEBUG方式线程的底层运行原理
2021/06/21 Java/Android
javascript数组includes、reduce的基本使用
2021/07/02 Javascript
Windows Server 2019 安装DHCP服务及相关配置
2022/04/28 Servers