编程 Python

Pandas 数据框增、删、改、查、去重、抽样基本操作方法

Posted in Python onApril 12, 2018

总括

pandas的索引函数主要有三种：

loc 标签索引，行和列的名称

iloc 整型索引（绝对位置索引），绝对意义上的几行几列，起始索引为0

ix 是 iloc 和 loc的合体

at是loc的快捷方式

iat是iloc的快捷方式

建立测试数据集：

import pandas as pd
df = pd.DataFrame({'a': [1, 2, 3], 'b': ['a', 'b', 'c'],'c': ["A","B","C"]})
print(df)
 a b c
0 1 a A
1 2 b B
2 3 c C

行操作

选择某一行

print(df.loc[1,:])
a 2
b b
c B
Name: 1, dtype: object

选择多行

print(df.loc[1:2,:])#选择1:2行，slice为1
 a b c
1 2 b B
2 3 c C
print(df.loc[::-1,:])#选择所有行，slice为-1，所以为倒序
 a b c
2 3 c C
1 2 b B
0 1 a A
print(df.loc[0:2:2,:])#选择0至2行，slice为2，等同于print(df.loc[0:2:2,:])因为只有3行
 a b c
0 1 a A
2 3 c C

条件筛选

普通条件筛选

print(df.loc[:,"a"]>2)#原理是首先做了一个判断，然后再筛选
0 False
1 False
2  True
Name: a, dtype: bool
print(df.loc[df.loc[:,"a"]>2,:])
 a b c
2 3 c C

另外条件筛选还可以集逻辑运算符 | for or, & for and, and ~for not

In [129]: s = pd.Series(range(-3, 4))
In [132]: s[(s < -1) | (s > 0.5)]
Out[132]: 
0 -3
1 -2
4 1
5 2
6 3
dtype: int64

isin

非索引列使用isin

In [141]: s = pd.Series(np.arange(5), index=np.arange(5)[::-1], dtype='int64')
In [143]: s.isin([2, 4, 6])
Out[143]: 
4 False
3 False
2  True
1 False
0  True
dtype: bool
In [144]: s[s.isin([2, 4, 6])]
Out[144]: 
2 2
0 4
dtype: int64

索引列使用isin

In [145]: s[s.index.isin([2, 4, 6])]
Out[145]: 
4 0
2 2
dtype: int64
# compare it to the following
In [146]: s[[2, 4, 6]]
Out[146]: 
2 2.0
4 0.0
6 NaN
dtype: float64

结合any()/all()在多列索引时

In [151]: df = pd.DataFrame({'vals': [1, 2, 3, 4], 'ids': ['a', 'b', 'f', 'n'],
 .....:     'ids2': ['a', 'n', 'c', 'n']})
 .....: 
In [156]: values = {'ids': ['a', 'b'], 'ids2': ['a', 'c'], 'vals': [1, 3]}
In [157]: row_mask = df.isin(values).all(1)
In [158]: df[row_mask]
Out[158]: 
 ids ids2 vals
0 a a  1

where()

In [1]: dates = pd.date_range('1/1/2000', periods=8)
In [2]: df = pd.DataFrame(np.random.randn(8, 4), index=dates, columns=['A', 'B', 'C', 'D'])
In [3]: df
Out[3]: 
     A   B   C   D
2000-01-01 0.469112 -0.282863 -1.509059 -1.135632
2000-01-02 1.212112 -0.173215 0.119209 -1.044236
2000-01-03 -0.861849 -2.104569 -0.494929 1.071804
2000-01-04 0.721555 -0.706771 -1.039575 0.271860
2000-01-05 -0.424972 0.567020 0.276232 -1.087401
2000-01-06 -0.673690 0.113648 -1.478427 0.524988
2000-01-07 0.404705 0.577046 -1.715002 -1.039268
2000-01-08 -0.370647 -1.157892 -1.344312 0.844885
In [162]: df.where(df < 0, -df)
Out[162]: 
     A   B   C   D
2000-01-01 -2.104139 -1.309525 -0.485855 -0.245166
2000-01-02 -0.352480 -0.390389 -1.192319 -1.655824
2000-01-03 -0.864883 -0.299674 -0.227870 -0.281059
2000-01-04 -0.846958 -1.222082 -0.600705 -1.233203
2000-01-05 -0.669692 -0.605656 -1.169184 -0.342416
2000-01-06 -0.868584 -0.948458 -2.297780 -0.684718
2000-01-07 -2.670153 -0.114722 -0.168904 -0.048048
2000-01-08 -0.801196 -1.392071 -0.048788 -0.808838

DataFrame.where() differs from numpy.where()的区别

In [172]: df.where(df < 0, -df) == np.where(df < 0, df, -df)

当series对象使用where()时，则返回一个序列

In [141]: s = pd.Series(np.arange(5), index=np.arange(5)[::-1], dtype='int64')
In [159]: s[s > 0]
Out[159]: 
3 1
2 2
1 3
0 4
dtype: int64
In [160]: s.where(s > 0)
Out[160]: 
4 NaN
3 1.0
2 2.0
1 3.0
0 4.0
dtype: float64

抽样筛选

DataFrame.sample(n=None, frac=None, replace=False, weights=None, random_state=None, axis=None)

当在有权重筛选时，未赋值的列权重为0，如果权重和不为1，则将会将每个权重除以总和。random_state可以设置抽样的种子（seed）。axis可是设置列随机抽样。

In [105]: df2 = pd.DataFrame({'col1':[9,8,7,6], 'weight_column':[0.5, 0.4, 0.1, 0]})
In [106]: df2.sample(n = 3, weights = 'weight_column')
Out[106]: 
 col1 weight_column
1  8   0.4
0  9   0.5
2  7   0.1

增加行

df.loc[3,:]=4
  a b c
0 1.0 a A
1 2.0 b B
2 3.0 c C
3 4.0 4 4

插入行

pandas里并没有直接指定索引的插入行的方法，所以要自己设置

line = pd.DataFrame({df.columns[0]:"--",df.columns[1]:"--",df.columns[2]:"--"},index=[1])
df = pd.concat([df.loc[:0],line,df.loc[1:]]).reset_index(drop=True)#df.loc[:0]这里不能写成df.loc[0]，因为df.loc[0]返回的是series
  a b c
0 1.0 a A
1 -- -- --
2 2.0 b B
3 3.0 c C
4 4.0 4 4

交换行

df.loc[[1,2],:]=df.loc[[2,1],:].values
 a b c
0 1 a A
1 3 c C
2 2 b B

删除行

df.drop(0,axis=0,inplace=True)
print(df)
 a b c
1 2 b B
2 3 c C

注意

在以时间作为索引的数据框中，索引是以整形的方式来的。

In [39]: dfl = pd.DataFrame(np.random.randn(5,4), columns=list('ABCD'), index=pd.date_range('20130101',periods=5))
In [40]: dfl
Out[40]: 
     A   B   C   D
2013-01-01 1.075770 -0.109050 1.643563 -1.469388
2013-01-02 0.357021 -0.674600 -1.776904 -0.968914
2013-01-03 -1.294524 0.413738 0.276662 -0.472035
2013-01-04 -0.013960 -0.362543 -0.006154 -0.923061
2013-01-05 0.895717 0.805244 -1.206412 2.565646
In [41]: dfl.loc['20130102':'20130104']
Out[41]: 
     A   B   C   D
2013-01-02 0.357021 -0.674600 -1.776904 -0.968914
2013-01-03 -1.294524 0.413738 0.276662 -0.472035
2013-01-04 -0.013960 -0.362543 -0.006154 -0.923061

列操作

选择某一列

print(df.loc[:,"a"])
0 1
1 2
2 3
Name: a, dtype: int64

选择多列

print(df.loc[:,"a":"b"])
 a b
0 1 a
1 2 b
2 3 c

增加列,如果对已有的列,则是赋值

df.loc[:,"d"]=4
 a b c d
0 1 a A 4
1 2 b B 4
2 3 c C 4

交换两列的值

df.loc[:,['b', 'a']] = df.loc[:,['a', 'b']].values
print(df)
 a b c
0 a 1 A
1 b 2 B
2 c 3 C

删除列

1）直接del DF[‘column-name']

2）采用drop方法，有下面三种等价的表达式：

DF= DF.drop(‘column_name', 1)；

DF.drop(‘column_name',axis=1, inplace=True)

DF.drop([DF.columns[[0,1,]]], axis=1,inplace=True)

df.drop("a",axis=1,inplace=True)
print(df)
 b c
0 a A
1 b B
2 c C

还有一些其他的功能：

切片df.loc[::,::]

选择随机抽样df.sample()

去重.duplicated()

查询.lookup

以上这篇Pandas 数据框增、删、改、查、去重、抽样基本操作方法就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持三水点靠木。

Pandas 数据框增、删、改、查、去重、抽样基本操作方法

- Author -

Claroja

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

9种python web 程序的部署方式小结

Jun 30 Python

python的绘图工具matplotlib使用实例

Jul 03 Python

python 实现自动远程登陆scp文件实例代码

Mar 13 Python

python数据处理实战(必看篇)

Jun 11 Python

Python进度条实时显示处理进度的示例代码

Jan 30 Python

python调用xlsxwriter创建xlsx的方法

May 03 Python

python爬取淘宝商品销量信息

Nov 16 Python

使用Python制作表情包实现换脸功能

Jul 19 Python

Python Django 实现简单注册功能过程详解

Jul 29 Python

Python读取配置文件(config.ini)以及写入配置文件

Apr 08 Python

快速解释如何使用pandas的inplace参数的使用

Jul 23 Python

Python3爬虫RedisDump的安装步骤

Feb 20 Python

dataframe设置两个条件取值的实例

Apr 12 #Python

使用python编写监听端

Apr 12 #Python

Python实现针对给定单链表删除指定节点的方法

Apr 12 #Python

pandas系列之DataFrame 行列数据筛选实例

Apr 12 #Python

python:pandas合并csv文件的方法(图书数据集成)

Apr 12 #Python

用pandas按列合并两个文件的实例

Apr 12 #Python

Python中多个数组行合并及列合并的方法总结

Apr 12 #Python

You might like

Oracle Faq(Oracle的版本)

2006/10/09 PHP

jQuery+PHP+ajax实现微博加载更多内容列表功能

2014/06/27 PHP

HTML5如何适配 iPhone IOS 底部黑条

2021/03/09 HTML / CSS

用roll.js实现的图片自动滚动+鼠标触动的特效

2007/03/18 Javascript

（推荐一个超好的JS函数库）S.Sams Lifexperience ScriptClassLib

2007/04/29 Javascript

jQuery EasyUI API 中文文档 - Parser 解析器

2011/09/29 Javascript

ASP.NET jQuery 实例10 动态修改hyperlink的URL值

2012/02/03 Javascript

JavaScript AJAX之惰性载入函数

2014/08/27 Javascript

js实现表单及时验证功能用户信息立即验证

2016/09/13 Javascript

node.js中实现kindEditor图片上传功能的方法教程

2017/04/26 Javascript

Angular 2 ngForm中的ngModel、[ngModel]和[(ngModel)]的写法

2017/06/29 Javascript

node文字生成图片的示例代码

2017/10/26 Javascript

JS实现的RC4加密算法示例

2018/08/16 Javascript

Vue实现导航栏点击当前标签变色功能

2020/08/19 Javascript

浅谈vue中$bus的使用和涉及到的问题

2020/07/28 Javascript

浅谈vue 组件中的setInterval方法和window的不同

2020/07/30 Javascript

python获取本地计算机名字的方法

2015/04/29 Python

Python修改MP3文件的方法

2015/06/15 Python

使用Python读写文本文件及编写简单的文本编辑器

2016/03/11 Python

浅析Python中的getattr(),setattr(),delattr(),hasattr()

2016/06/14 Python

python中函数传参详解

2016/07/03 Python

Python信息抽取之乱码解决办法

2017/06/29 Python

Python排序搜索基本算法之选择排序实例分析

2017/12/09 Python

关于Django显示时间你应该知道的一些问题

2017/12/25 Python

Python无损音乐搜索引擎实现代码

2018/02/02 Python

python读取TXT每行,并存到LIST中的方法

2018/10/26 Python

Python 利用pydub库操作音频文件的方法

2019/01/09 Python

南非领先的在线旅行社：Travelstart南非

2016/09/04 全球购物

瑞典度假品牌：OAS

2019/05/28 全球购物

巴西Mr. Cat在线商店：购买包包和鞋子

2019/09/08 全球购物

毕业生机械建模求职信

2013/10/14 职场文书

施工协议书范本

2014/04/22 职场文书

老干部工作先进事迹

2014/08/17 职场文书

个人收入证明范本

2014/09/18 职场文书

python中对列表的删除和添加方法详解

2022/02/24 Python

小喇叭开始广播了! 四十多年前珍贵老照片

2022/05/09 无线电