Python----数据预处理代码实例


Posted in Python onMarch 20, 2019

本文实例为大家分享了Python数据预处理的具体代码,供大家参考,具体内容如下

1.导入标准库

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

2.导入数据集

dataset = pd.read_csv('data (1).csv') # read_csv:读取csv文件
#创建一个包含所有自变量的矩阵,及因变量的向量
#iloc表示选取数据集的某行某列;逗号之前的表示行,之后的表示列;冒号表示选取全部,没有冒号,则表示选取第几列;values表示选取数据集里的数据。
X = dataset.iloc[:, :-1].values # 选取数据,不选取最后一列。
y = dataset.iloc[:, 3].values # 选取数据,选取每行的第3列数据

3.缺失数据

from sklearn.preprocessing import Imputer #进行数据挖掘及数据分析的标准库,Imputer缺失数据的处理
#Imputer中的参数:missing_values 缺失数据,定义怎样辨认确实数据,默认值:nan ;strategy 策略,补缺值方式 : mean-平均值 , median-中值 , most_frequent-出现次数最多的数 ; axis =0取列 =1取行 
imputer = Imputer(missing_values = 'NaN', strategy = 'mean', axis = 0)
imputer = imputer.fit(X[:, 1:3])#拟合fit
X[:, 1:3] = imputer.transform(X[:, 1:3])

4.分类数据

from sklearn.preprocessing import LabelEncoder,OneHotEncoder
labelencoder_X=LabelEncoder()
X[:,0]=labelencoder_X.fit_transform(X[:,0])
onehotencoder=OneHotEncoder(categorical_features=[0])
X=onehotencoder.fit_transform(X).toarray()
#因为Purchased是因变量,Python里面的函数可以将其识别为分类数据,所以只需要LabelEncoder转换为分类数字
labelencoder_y=LabelEncoder()
y=labelencoder_y.fit_transform(y)

5.将数据集分为训练集和测试集

from sklearn.model_selection import train_test_split
X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.2,random_state=0)
#X_train(训练集的字变量),X_test(测试集的字变量),y_train(训练集的因变量),y_test(训练集的因变量)
#训练集所占的比重0.2~0.25,某些情况也可分配1/3的数据给训练集;train_size训练集所占的比重
#random_state决定随机数生成的方式,随机的将数据分配给训练集和测试集;random_state相同时会得到相同的训练集和测试集

6.特征缩放

#特征缩放(两种方式:一:Standardisation(标准化);二:Normalisation(正常化))
from sklearn.preprocessing import StandardScaler
sc_X=StandardScaler()
X_train=sc_X.fit_transform(X_train)#拟合,对X_train进行缩放
X_test=sc_X.transform(X_test)#sc_X已经被拟合好了,所以对X_test进行缩放时,直接转换X_test

7.数据预处理模板

(1)导入标准库
(2)导入数据集
(3)缺失和分类很少遇到
(4)将数据集分割为训练集和测试集
(5)特征缩放,大部分情况下不需要,但是某些情况需要特征缩放

以上所述是小编给大家介绍的Python数据预处理详解整合,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对三水点靠木网站的支持!

Python 相关文章推荐
用python代码做configure文件
Jul 20 Python
用ReactJS和Python的Flask框架编写留言板的代码示例
Dec 19 Python
Python基于select实现的socket服务器
Apr 13 Python
利用Python抓取行政区划码的方法
Nov 28 Python
如何实现删除numpy.array中的行或列
May 08 Python
python读取图片的方式,以及将图片以三维数组的形式输出方法
Jul 03 Python
python用win32gui遍历窗口并设置窗口位置的方法
Jul 26 Python
Python爬虫实现的根据分类爬取豆瓣电影信息功能示例
Sep 15 Python
python DataFrame转dict字典过程详解
Dec 26 Python
python实现大战外星人小游戏实例代码
Dec 26 Python
python torch.utils.data.DataLoader使用方法
Apr 02 Python
python+requests实现接口测试的完整步骤
Oct 27 Python
浅谈python编译pyc工程--导包问题解决
Mar 20 #Python
python实现维吉尼亚算法
Mar 20 #Python
python多线程抽象编程模型详解
Mar 20 #Python
基于python生成器封装的协程类
Mar 20 #Python
python实现栅栏加解密 支持密钥加密
Mar 20 #Python
python实现Virginia无密钥解密
Mar 20 #Python
python实现维吉尼亚加密法
Mar 20 #Python
You might like
PHP中动态HTML的输出技术
2006/10/09 PHP
第十二节--类的自动加载
2006/11/16 PHP
mysql 的 like 问题,超强毕杀记!!!
2007/01/18 PHP
PHP ? EasyUI DataGrid 资料存的方式介绍
2012/11/07 PHP
解析PHP跨站刷票的实现代码
2013/06/18 PHP
php usort 使用用户自定义的比较函数对二维数组中的值进行排序
2017/05/02 PHP
PHP创建单例后台进程的方法示例
2017/05/23 PHP
PHP序列化的四种实现方法与横向对比
2018/11/29 PHP
PHP的cookie与session原理及用法详解
2019/09/27 PHP
ajax无刷新动态调用股票信息(改良版)
2008/11/01 Javascript
jquery ajax 同步异步的执行 return值不能取得的解决方案
2012/01/08 Javascript
JS中Date日期函数中的参数使用介绍
2014/01/02 Javascript
深入理解JSON数据源格式
2014/01/10 Javascript
javascript实现rgb颜色转换成16进制格式
2015/07/10 Javascript
JavaScript 节流函数 Throttle 详解
2016/07/04 Javascript
javascript简单进制转换实现方法
2016/11/24 Javascript
浅谈mint-ui 填坑之路
2017/11/06 Javascript
工作中常用到的ES6语法
2018/09/04 Javascript
解决vuecli3.0热更新失效的问题
2018/09/19 Javascript
JS实现鼠标拖拽盒子移动及右键点击盒子消失效果示例
2019/01/29 Javascript
[08:56]DOTA2-DPC中国联赛2月23日Recap集锦
2021/03/11 DOTA
在python的WEB框架Flask中使用多个配置文件的解决方法
2014/04/18 Python
Python中lambda的用法及其与def的区别解析
2014/07/28 Python
Python数据结构与算法之字典树实现方法示例
2017/12/13 Python
Mac中PyCharm配置Anaconda环境的方法
2020/03/04 Python
Python进行统计建模
2020/08/10 Python
Html5之webcoekt播放JPEG图片流
2020/09/22 HTML / CSS
会计出纳员的自我评价
2014/01/15 职场文书
怎么写好自荐书
2014/03/02 职场文书
球队口号
2014/06/18 职场文书
锦旗标语大全
2014/06/23 职场文书
计算机网络专业自荐信
2014/07/04 职场文书
高考作弊检讨书1500字
2015/02/16 职场文书
教师年度考核自我评鉴
2015/08/11 职场文书
小学校本教研总结
2015/08/13 职场文书
MySQL为id选择合适的数据类型
2021/06/07 MySQL