Python----数据预处理代码实例


Posted in Python onMarch 20, 2019

本文实例为大家分享了Python数据预处理的具体代码,供大家参考,具体内容如下

1.导入标准库

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

2.导入数据集

dataset = pd.read_csv('data (1).csv') # read_csv:读取csv文件
#创建一个包含所有自变量的矩阵,及因变量的向量
#iloc表示选取数据集的某行某列;逗号之前的表示行,之后的表示列;冒号表示选取全部,没有冒号,则表示选取第几列;values表示选取数据集里的数据。
X = dataset.iloc[:, :-1].values # 选取数据,不选取最后一列。
y = dataset.iloc[:, 3].values # 选取数据,选取每行的第3列数据

3.缺失数据

from sklearn.preprocessing import Imputer #进行数据挖掘及数据分析的标准库,Imputer缺失数据的处理
#Imputer中的参数:missing_values 缺失数据,定义怎样辨认确实数据,默认值:nan ;strategy 策略,补缺值方式 : mean-平均值 , median-中值 , most_frequent-出现次数最多的数 ; axis =0取列 =1取行 
imputer = Imputer(missing_values = 'NaN', strategy = 'mean', axis = 0)
imputer = imputer.fit(X[:, 1:3])#拟合fit
X[:, 1:3] = imputer.transform(X[:, 1:3])

4.分类数据

from sklearn.preprocessing import LabelEncoder,OneHotEncoder
labelencoder_X=LabelEncoder()
X[:,0]=labelencoder_X.fit_transform(X[:,0])
onehotencoder=OneHotEncoder(categorical_features=[0])
X=onehotencoder.fit_transform(X).toarray()
#因为Purchased是因变量,Python里面的函数可以将其识别为分类数据,所以只需要LabelEncoder转换为分类数字
labelencoder_y=LabelEncoder()
y=labelencoder_y.fit_transform(y)

5.将数据集分为训练集和测试集

from sklearn.model_selection import train_test_split
X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.2,random_state=0)
#X_train(训练集的字变量),X_test(测试集的字变量),y_train(训练集的因变量),y_test(训练集的因变量)
#训练集所占的比重0.2~0.25,某些情况也可分配1/3的数据给训练集;train_size训练集所占的比重
#random_state决定随机数生成的方式,随机的将数据分配给训练集和测试集;random_state相同时会得到相同的训练集和测试集

6.特征缩放

#特征缩放(两种方式:一:Standardisation(标准化);二:Normalisation(正常化))
from sklearn.preprocessing import StandardScaler
sc_X=StandardScaler()
X_train=sc_X.fit_transform(X_train)#拟合,对X_train进行缩放
X_test=sc_X.transform(X_test)#sc_X已经被拟合好了,所以对X_test进行缩放时,直接转换X_test

7.数据预处理模板

(1)导入标准库
(2)导入数据集
(3)缺失和分类很少遇到
(4)将数据集分割为训练集和测试集
(5)特征缩放,大部分情况下不需要,但是某些情况需要特征缩放

以上所述是小编给大家介绍的Python数据预处理详解整合,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对三水点靠木网站的支持!

Python 相关文章推荐
跟老齐学Python之for循环语句
Oct 02 Python
python解析xml文件操作实例
Oct 05 Python
Python时间的精准正则匹配方法分析
Aug 17 Python
python实现石头剪刀布小游戏
Jan 20 Python
python爬虫 execjs安装配置及使用
Jul 30 Python
python多进程重复加载的解决方式
Dec 13 Python
如何使用Python多线程测试并发漏洞
Dec 18 Python
Python关于反射的实例代码分享
Feb 20 Python
keras导入weights方式
Jun 12 Python
python打包生成so文件的实现
Oct 30 Python
pycharm实现猜数游戏
Dec 07 Python
Python自然语言处理之切分算法详解
Apr 25 Python
浅谈python编译pyc工程--导包问题解决
Mar 20 #Python
python实现维吉尼亚算法
Mar 20 #Python
python多线程抽象编程模型详解
Mar 20 #Python
基于python生成器封装的协程类
Mar 20 #Python
python实现栅栏加解密 支持密钥加密
Mar 20 #Python
python实现Virginia无密钥解密
Mar 20 #Python
python实现维吉尼亚加密法
Mar 20 #Python
You might like
介绍一些PHP判断变量的函数
2012/04/24 PHP
php环境套包 dedeampz 伪静态设置示例
2014/03/26 PHP
ThinkPHP中url隐藏入口文件后接收alipay传值的方法
2014/12/09 PHP
PHP中返回引用类型的方法
2015/04/03 PHP
PHP输入输出流学习笔记
2015/05/12 PHP
php7基于递归实现删除空文件夹的方法示例
2017/06/15 PHP
Yii框架组件的事件机制原理与用法分析
2020/04/07 PHP
JavaScript 继承详解(一)
2009/07/13 Javascript
js 金额格式化来回转换示例
2014/02/23 Javascript
js运动动画的八个知识点
2015/03/12 Javascript
深入浅出ES6之let和const命令
2016/08/25 Javascript
微信小程序(应用号)简单实例应用及实例详解
2016/09/26 Javascript
JS实现改变HTML上文字颜色和内容的方法
2016/12/30 Javascript
jQuery使用siblings获取某元素所有同辈(兄弟姐妹)元素用法示例
2017/01/30 Javascript
jquery代码规范让代码越来越好看
2017/02/03 Javascript
element-ui表格列金额显示两位小数的方法
2018/08/24 Javascript
深入学习JavaScript中的bom
2019/05/27 Javascript
浅析Angular 实现一个repeat指令的方法
2019/07/21 Javascript
Python ORM框架SQLAlchemy学习笔记之安装和简单查询实例
2014/06/10 Python
python简单分割文件的方法
2015/07/30 Python
python基础之入门必看操作
2017/07/26 Python
python读取文本中的坐标方法
2018/10/14 Python
python向字符串中添加元素的实例方法
2019/06/28 Python
pyqt5 QlistView列表显示的实现示例
2020/03/24 Python
python3.7+selenium模拟淘宝登录功能的实现
2020/05/26 Python
关于css兼容性问题及一些常见问题汇总
2016/05/03 HTML / CSS
财务管理专业自荐信范文
2013/12/24 职场文书
运动会广播稿150字
2014/02/19 职场文书
《台湾的蝴蝶谷》教学反思
2014/02/20 职场文书
《母鸡》教学反思
2014/02/25 职场文书
情人节活动策划方案
2014/02/27 职场文书
党的群众路线教育实践活动个人对照检查材料范文
2014/09/25 职场文书
研究生毕业论文导师评语
2014/12/31 职场文书
python 用递归实现通用爬虫解析器
2021/04/16 Python
详解Python生成器和基于生成器的协程
2021/06/03 Python
Win11任务栏无法正常显示 资源管理器不停重启的解决方法
2022/07/07 数码科技