编程 Python

使用pandas模块实现数据的标准化操作

Posted in Python onMay 14, 2021

如下所示：

3σ 原则	(u-3σ ,u+3σ )
离差标准化	(x-min)/(max-min)
标准差标准化	(x-u)/σ
小数定标标准化	x/10**k k=np.ceil(log10(max(\|x\|)))

1.3σ原则

u 均值

σ 标准差

正太分布的数据基本都分布在（u-3σ,u+3σ）范围内

其他的数据

import pandas as pd
import numpy as np
def three_sigma(se):
    """
    自实现3σ原则，进行数据过滤
    :param se:传进来的series结构数据
    :return:去除异常值之后的series数据
    """
    bool_id=((se.mean()-3*se.std())<se) & (se<(se.mean()+3*se.std()))
    print(bool_id)
    return se[bool_id]
 
#加载数据
detail=pd.read_excel('./meal_order_detail.xlsx')
#进行异常值处理
res=three_sigma(detail['amounts'])
print(detail.shape)
print(res.shape)

2.离差标准化

(x-min)/(max-min)

import pandas as pd
import numpy as np
 
def minmax_sca(data):
    """
    离差标准化
    param data:传入的数据
    return:标准化之后的数据
    """
    new_data=(data-data.min())/(data.max()-data.min())
    return new_data
 
#加载数据
detail=pd.read_excel('./meal_order_detail.xlsx')
res=minmax_sca(detail[['amounts','counts']])
print(res)
data=res
bool_id=data.loc[:,'count']==1
print(data.loc[bool_id],'counts')

3.标准差标准化

(x-u)/σ

异常值对标准差标准化的影响不大

转化之后的数据--->均值0 标准差1

import pandas as pd
import numpy as np
def stand_sca(data):
    """
    标准差标准化
    :param data:传入的数据
    :return:标准化之后的数据
    """
    new_data=(data-data.mean())/data.std()
    return new_data
 
#加载数据
detail=pd.read_excel('./meal_order_detail.xlsx')
res=stand_sca(detail[['amounts','counts']])
print(res)
print('res的均值：',res.mean())
print('res的标准差：',res.std())

4.小数定标标准化

x/(10^k)
k=math.ceil(log10(max(|x|)))

以10为底，x的绝对值的最大值的对数最后进行向上取整

import pandas as pd
import numpy as np
def deci_sca(data):
    """
    自实现小数定标标准化
    :param data: 传入的数据
    :return: 标准化之后的数据
    """
    new_data=data/(10**(np.ceil(np.log10(data.abs().max()))))
    return new_data
#加载数据
detail = pd.read_excel('./meal_order_detail.xlsx')
res = deci_sca(detail[['amounts', 'counts']])
print(res)

补充：pandas数据处理基础之标准化与标签数值化

fit(): Method calculates the parameters μ and σ and saves them as internal objects.

解释：简单来说，就是求得训练集X的均值，方差，最大值，最小值,这些训练集X固有的属性。

transform(): Method using these calculated parameters apply the transformation to a particular dataset.

解释：在fit的基础上，进行标准化，降维，归一化等操作（看具体用的是哪个工具，如PCA，StandardScaler等）。

fit_transform(): joins the fit() and transform() method for transformation of dataset.

解释：fit_transform是fit和transform的组合，既包括了训练又包含了转换。 transform()和fit_transform()二者的功能都是对数据进行某种统一处理（比如标准化~N(0,1)，将数据缩放(映射)到某个固定区间，归一化，正则化等）

fit_transform(trainData)对部分数据先拟合fit，找到该part的整体指标，如均值、方差、最大值最小值等等（根据具体转换的目的），然后对该trainData进行转换transform，从而实现数据的标准化、归一化等等。

Note:

必须先用fit_transform(trainData)，之后再transform(testData)

如果直接transform(testData)，程序会报错

如果fit_transfrom(trainData)后，使用fit_transform(testData)而不transform(testData)，虽然也能归一化，但是两个结果不是在同一个“标准”下的，具有明显差异。(一定要避免这种情况)

注意：StandardScaler().fit_transform(x，fit_params),fit_params决定标准化的标签数据，就是每个标准化的标杆数据，此参数不同，则每次标准化的过程则不同。

from sklearn import preprocessing
# 获取数据
cols = ['OverallQual','GrLivArea', 'GarageCars','TotalBsmtSF', 'FullBath', 'TotRmsAbvGrd', 'YearBuilt'] ##选取列
x = data_train[cols].values
y = data_train['SalePrice'].values  
x_scaled = preprocessing.StandardScaler().fit_transform(x) ##进行归一化
y_scaled = preprocessing.StandardScaler().fit_transform(y.reshape(-1,1))##先将y转换成一列，再进行归一

还有以下形式，和上面的标准化原理一致，都是先fit，再transform。

由ss决定标准化进程的独特性

# 先将数据标准化
from sklearn.preprocessing import StandardScaler
ss = StandardScaler() ##
#用测试集训练并标准化
ss.fit(missing_age_X_train)##首先fit
missing_age_X_train = ss.transform(missing_age_X_train) #进行transform
missing_age_X_test = ss.transform(missing_age_X_test)

标签数值化

1.当某列数据不是数值型数据时，将难以标准化，此时要将数据转化成数据型形式。

数据处理前数据显示：

使用pandas模块实现数据的标准化操作

经过标签化数据处理

from sklearn import preprocessing
f_names = ['CentralAir', 'Neighborhood'] ##需要处理的数据标签 
for x in f_names:
    label = preprocessing.LabelEncoder()
    data_train[x] = label.fit_transform(data_train[x]) ##数据标准化

处理之后变成：

使用pandas模块实现数据的标准化操作

2.当某列有对应的标签值时，即某个量对应相应确定的标签时，例如oldtown就对应1，sawyer就对应2，分类的str转换为序列类这时使用如下：

数据处理之前

使用pandas模块实现数据的标准化操作

利用转换:

title_mapping = {"Mr": 1, "Miss": 2, "Mrs": 3, "Master": 4, "Rare": 5}#将标签对应数值
train_df['Title'] = train_df['Title'].map(title_mapping)#处理数据
train_df['Title'] = train_df['Title'].fillna(0)##将其余标签填充为0值

处理过后：

使用pandas模块实现数据的标准化操作

3.多个数据标签需要分列采用one_hot形式时，处理之前

使用pandas模块实现数据的标准化操作

处理之后

train_test.loc[train_test["Age"].isnull() ,"age_nan"] = 1 ##将标签转换成1
train_test.loc[train_test["Age"].notnull() ,"age_nan"] = 0##将此标签成为0
train_test = pd.get_dummies(train_test,columns=['age_nan']) ##columns决定哪几行分列处理，prefix参数是每列前缀

使用pandas模块实现数据的标准化操作

one_hot 形式转变成功。

以上为个人经验，希望能给大家一个参考，也希望大家多多支持三水点靠木。

使用pandas模块实现数据的标准化操作

- Author -

也许会_hui

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python多线程编程（三）：threading.Thread类的重要函数和方法

Apr 05 Python

python 字典(dict)按键和值排序

Jun 28 Python

Python中的time模块与datetime模块用法总结

Jun 30 Python

Python Pandas找到缺失值的位置方法

Apr 12 Python

pyspark.sql.DataFrame与pandas.DataFrame之间的相互转换实例

Aug 02 Python

解决Mac下首次安装pycharm无project interpreter的问题

Oct 29 Python

对python遍历文件夹中的所有jpg文件的实例详解

Dec 08 Python

Python图像滤波处理操作示例【基于ImageFilter类】

Jan 03 Python

TENSORFLOW变量作用域（VARIABLE SCOPE）

Jan 10 Python

利用matplotlib为图片上添加触发事件进行交互

Apr 23 Python

Python ADF 单位根检验如何查看结果的实现

Jun 03 Python

python 贪心算法的实现

Sep 18 Python

pandas 实现将NaN转换为None

May 14 #Python

Pandas||过滤缺失数据||pd.dropna()函数的用法说明

Python爬虫：从m3u8文件里提取小视频的正确操作

MATLAB 全景图切割及盒图显示的实现步骤

使用pandas或numpy处理数据中的空值(np.isnan()/pd.isnull())

May 14 #Python

PyQt5爬取12306车票信息程序的实现

python flask框架快速入门

You might like

PHPLog php 程序调试追踪工具

2009/09/09 PHP

一些被忽视的PHP函数（简单整理）

2010/04/30 PHP

php类自动装载、链式操作、魔术方法实现代码

2017/07/23 PHP

PHP十六进制颜色随机生成器功能示例

2017/07/24 PHP

PHP常见过waf webshell以及最简单的检测方法

2019/05/21 PHP

php实现商城购物车的思路和源码分析

2020/07/23 PHP

使用非html5实现js板连连看游戏示例代码

2013/09/22 Javascript

javascript动态添加、修改、删除对象的属性与方法详解

2014/01/27 Javascript

一个可以增加和删除行的table并可编辑表格中内容

2014/06/16 Javascript

node.js中的fs.unlinkSync方法使用说明

2014/12/15 Javascript

AngularJS中如何使用$parse或$eval在运行时对Scope变量赋值

2016/01/25 Javascript

Bootstrap入门书籍之（五）导航条、分页导航

2016/02/17 Javascript

微信小程序获取微信OpenId详解及实例代码

2016/10/31 Javascript

react.js 翻页插件实例代码

2017/01/19 Javascript

angularjs实现的前端分页控件示例

2017/02/10 Javascript

nodejs中art-template模板语法的引入及冲突解决方案

2017/11/07 NodeJs

Vue单页面应用保证F5强刷不清空数据的解决方案

2018/01/31 Javascript

vue中axios解决跨域问题和拦截器的使用方法

2018/03/07 Javascript

vue + element-ui的分页问题实现

2018/12/17 Javascript

使用Angular Cli如何创建Angular私有库详解

2019/01/30 Javascript

JSON的parse()方法介绍

2019/01/31 Javascript

详解微信小程序开发之formId使用（模板消息）

2019/08/27 Javascript

三步实现ionic3点击退出app程序

2019/09/17 Javascript

python通过定义一个类实例作为ftp回调方法

2015/05/04 Python

在CentOS6上安装Python2.7的解决方法

2018/01/09 Python

Python实现栈的方法详解【基于数组和单链表两种方法】

2020/02/22 Python

一款基于css3的列表toggle特效实例教程

2015/01/04 HTML / CSS

德国BA保镖药房韩文网：kr.ba.de

2017/09/04 全球购物

公务员的自我鉴定

2013/10/26 职场文书

十岁生日家长答谢词

2014/01/17 职场文书

毕业自我鉴定怎么写

2014/03/25 职场文书

2014年度党员自我评议

2014/09/13 职场文书

文员岗位职责范本

2015/04/16 职场文书

利用Nginx代理如何解决前端跨域问题详析

2021/04/02 Servers

MySQL控制流函数(-if ,elseif,else,case...when)

2022/07/07 MySQL

JS class语法糖的深入剖析

2022/07/07 Javascript