python读写数据读写csv文件(pandas用法)


Posted in Python onDecember 14, 2020

python中数据处理是比较方便的,经常用的就是读写文件,提取数据等,本博客主要介绍其中的一些用法。Pandas是一个强大的分析结构化数据的工具集;它的使用基础是Numpy(提供高性能的矩阵运算);用于数据挖掘和数据分析,同时也提供数据清洗功能。

一、pandas读取csv文件

数据处理过程中csv文件用的比较多。

import pandas as pd
data = pd.read_csv('F:/Zhu/test/test.csv')

下面看一下pd.read_csv常用的参数:

pandas.read_csv(filepath_or_buffer, sep=', ', delimiter=None, header='infer', names=None, index_col=None, usecols=None, squeeze=False, prefix=None, mangle_dupe_cols=True, dtype=None, engine=None, converters=None, true_values=None, false_values=None, skipinitialspace=False, skiprows=None, nrows=None, na_values=None, keep_default_na=True, na_filter=True, verbose=False, skip_blank_lines=True, parse_dates=False, infer_datetime_format=False, keep_date_col=False, date_parser=None, dayfirst=False, iterator=False, chunksize=None, compression='infer', thousands=None, decimal=b'.', lineterminator=None, quotechar='"', quoting=0, escapechar=None, comment=None, encoding=None, dialect=None, tupleize_cols=None, error_bad_lines=True, warn_bad_lines=True, skipfooter=0, doublequote=True, delim_whitespace=False, low_memory=True, memory_map=False, float_precision=None)

常用参数解释:read_csv与read_table常用的参数(更多参数查看官方手册):

filepath_or_buffer #需要读取的文件及路径
sep / delimiter 列分隔符,普通文本文件,应该都是使用结构化的方式来组织,才能使用dataframe
header 文件中是否需要读取列名的一行,header=None(使用names自定义列名,否则默认0,1,2,...),header=0(将首行设为列名)
names 如果header=None,那么names必须制定!否则就没有列的定义了。
shkiprows= 10 # 跳过前十行 
nrows = 10 # 只去前10行 
usecols=[0,1,2,...] #需要读取的列,可以是列的位置编号,也可以是列的名称
parse_dates = ['col_name'] # 指定某行读取为日期格式 
index_col = None /False /0,重新生成一列成为index值,0表示第一列,用作行索引的列编号或列名。可以是单个名称/数字或由多个名称/数宇组成的列表(层次化索引)
error_bad_lines = False # 当某行数据有问题时,不报错,直接跳过,处理脏数据时使用 
na_values = 'NULL' # 将NULL识别为空值
encoding='utf-8' #指明读取文件的编码,默认utf-8

读取csv/txt/tsv文件,返回一个DataFrame类型的对象。

举例:

python读写数据读写csv文件(pandas用法)

import pandas as pd
data = pd.read_csv('F:/Zhu/test/test.csv')
print(data)

  name age    birth
0  zhu  20  2000.1.5
1  wang  20  2000.6.18
2 zhang  21 1999.11.11
3  zhu  22 1998.10.24

pandas用iloc,loc提取数据

提取行数据:

loc函数:通过行索引 “Index” 中的具体值来取行数据(如取"Index"为"A"的行)

iloc函数:通过行号来取行数据(如取第2行的数据)

import pandas as pd
import numpy as np
#创建一个Dataframe
data = pd.DataFrame(np.arange(16).reshape(4, 4), index=list('abcd'), columns=list('ABCD'))
print(data)

  A  B  C  D
a  0  1  2  3
b  4  5  6  7
c  8  9 10 11
d 12 13 14 15

loc提取'a'的行:

print(data.loc['a'])

A  0
B  1
C  2
D  3
Name: a, dtype: int32

iloc提取第2行:

print(data.iloc[2])

A   8
B   9
C  10
D  11
Name: c, dtype: int32

提取列数据

print(data.loc[:, ['A']])#取'A'列所有行,多取几列格式为 data.loc[:,['A','B']]

  A
a  0
b  4
c  8
d 12
print(data.iloc[:, [0]])

  A
a  0
b  4
c  8
d 12

提取指定行,指定列

print(data.loc[['a','b'],['A','B']]) #提取index为'a','b',列名为'A','B'中的数据

  A B
a 0 1
b 4 5
print(data.iloc[[0,1],[0,1]]) #提取第0、1行,第0、1列中的数据

  A B
a 0 1
b 4 5

提取所有行所有列:

print(data.loc[:,:])#取A,B,C,D列的所有行
print(data.iloc[:,:])

  A  B  C  D
a  0  1  2  3
b  4  5  6  7
c  8  9 10 11
d 12 13 14 15

根据某个指定数据提取行

print(data.loc[data['A']==0])#提取data数据(筛选条件: A列中数字为0所在的行数据)

  A B C D
a 0 1 2 3

二、pandas写入csv文件

pandas将多组列表写入csv

import pandas as pd

#任意的多组列表
a = [1,2,3]
b = [4,5,6]  

#字典中的key值即为csv中列名
dataframe = pd.DataFrame({'a_name':a,'b_name':b})

#将DataFrame存储为csv,index表示是否显示行名,default=True
dataframe.to_csv("test.csv",index=False,sep=',')

结果:

python读写数据读写csv文件(pandas用法)

如果你想写入一行,就是你存储的一个列表是一行数据,你想把这一行数据写入csv文件。

这个时候可以使用csv方法,一行一行的写

import csv

with open("test.csv","w") as csvfile: 
  writer = csv.writer(csvfile)

  #先写入columns_name
  writer.writerow(["index","a_name","b_name"])
  #写入一行用writerow
  #write.writerow([0,1,2])
  #写入多行用writerows
  writer.writerows([[0,1,3],[1,2,3],[2,3,4]])

python读写数据读写csv文件(pandas用法)

可以看到,每次写一行,就自动空行,解决办法就是在打开文件的时候加上参数newline=''

import csv

with open("F:/zhu/test/test.csv","w", newline='') as csvfile:
  writer = csv.writer(csvfile)

  #先写入columns_name
  writer.writerow(["index","a_name","b_name"])
  #写入多行用writerows
  writer.writerows([[0,1,3],[1,2,3],[2,3,4]])

python读写数据读写csv文件(pandas用法)

写入txt文件类似

(1)创建txt数据文件,创建好文件记得要关闭文件,不然读取不了文件内容

(2)读取txt文件

#读取txt文件
file=open("G:\\info.txt",'r',encoding='utf-8')
userlines=file.readlines()
file.close()
for line in userlines:
  username=line.split(',')[0] #读取用户名
  password=line.split(',')[1] #读取密码
  print(username,password)

三、pandas查看数据表信息

1)查看维度:data.shape

import pandas as pd
data = pd.read_csv('F:/Zhu/test/test.csv')
print(data)
print(data.shape)

  index a_name b_name
0   0    1    3
1   1    2    3
2   2    3    4
(3, 3)

2)查看数据表基本信息:data.info

import pandas as pd
data = pd.read_csv('F:/Zhu/test/test.csv')
print(data)
print(data.info)

  index a_name b_name
0   0    1    3
1   1    2    3
2   2    3    4
<bound method DataFrame.info of  index a_name b_name
0   0    1    3
1   1    2    3
2   2    3    4>

3)查看每一行的格式:data.dtype

import pandas as pd
data = pd.read_csv('F:/Zhu/test/test.csv')
print(data.dtypes)

index   int64
a_name  int64
b_name  int64
dtype: object

4)查看前2行数据、后2行数据

df.head() #默认前10行数据,注意:可以在head函数中填写参数,自定义要查看的行数
df.tail() #默认后10 行数据
import pandas as pd
data = pd.read_csv('F:/Zhu/test/test.csv')
print(data)
print(data.head(2))
print(data.tail(2))

  index a_name b_name
0   0    1    3
1   1    2    3
2   2    3    4
  index a_name b_name
0   0    1    3
1   1    2    3
  index a_name b_name
1   1    2    3
2   2    3    4

四、数据清洗

1)NaN数值的处理:用数字0填充空值

data.fillna(value=0,inplace=True)

注意:df.fillna不会立即生效,需要设置inplace=True

2)清除字符字段的字符空格

字符串(str)的头和尾的空格,以及位于头尾的\n \t之类给删掉

data['customername']=data['customername'].map(str.strip)#如清除customername中出现的空格

3)大小写转换

data['customername']=data['customername'].str.lower()

4)删除重复出现的值

data.drop_duplicates(['customername'],inplace=True)

5)数据替换

data['customername'].replace('111','qqq',inplace=True)

参考:

《Python之pandas简介》
《Pandas中loc和iloc函数用法详解(源码+实例) 》

到此这篇关于python读写数据读写csv文件(pandas用法)的文章就介绍到这了,更多相关python读写csv内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
写了个监控nginx进程的Python脚本
May 10 Python
在Python中利用Pandas库处理大数据的简单介绍
Apr 07 Python
Python导入txt数据到mysql的方法
Apr 08 Python
python基础教程之匿名函数lambda
Jan 17 Python
Flask框架URL管理操作示例【基于@app.route】
Jul 23 Python
Python基础教程之if判断,while循环,循环嵌套
Apr 25 Python
python绘制评估优化算法性能的测试函数
Jun 25 Python
Django配置MySQL数据库的完整步骤
Sep 07 Python
Python3 sys.argv[ ]用法详解
Oct 24 Python
python读取ini配置文件过程示范
Dec 23 Python
python opencv圆、椭圆与任意多边形的绘制实例详解
Feb 06 Python
一起来学习Python的元组和列表
Mar 13 Python
详解Python中@staticmethod和@classmethod区别及使用示例代码
Dec 14 #Python
Python 找出英文单词列表(list)中最长单词链
Dec 14 #Python
Python 排序最长英文单词链(列表中前一个单词末字母是下一个单词的首字母)
Dec 14 #Python
Python实现Kerberos用户的增删改查操作
Dec 14 #Python
python-地图可视化组件folium的操作
Dec 14 #Python
python多线程和多进程关系详解
Dec 14 #Python
Python Pandas list列表数据列拆分成多行的方法实现
Dec 14 #Python
You might like
水质对咖图啡风味的影响具体有哪些
2021/03/03 冲泡冲煮
PHP If Else(elsefi) 语句
2013/04/07 PHP
PHP命名空间(namespace)的动态访问及使用技巧
2014/08/18 PHP
PHP常见错误提示含义解释(实用!值得收藏)
2016/04/25 PHP
JQuyer $.post 与 $.ajax 访问WCF ajax service 时的问题需要注意的地方
2011/09/20 Javascript
让人印象深刻的10个jQuery手风琴效果应用
2012/05/08 Javascript
EXTjs4.0的store的findRecord的BUG演示代码
2013/06/08 Javascript
原生javascript实现获取指定元素下所有后代元素的方法
2014/10/28 Javascript
jquery实现将获取的颜色值转换为十六进制形式的方法
2014/12/20 Javascript
jQuery中click事件用法实例
2014/12/26 Javascript
JSONP原理及简单实现
2016/06/08 Javascript
利用javascript实现的三种图片放大镜效果实例(附源码)
2017/01/23 Javascript
JS实现为动态添加的元素增加事件功能示例【基于事件委托】
2018/03/21 Javascript
Nuxt.js SSR与权限验证的实现
2018/11/21 Javascript
javascript实现日历效果
2019/06/17 Javascript
Vue中fragment.js使用方法小结
2020/02/17 Javascript
vue动态设置路由权限的主要思路
2021/01/13 Vue.js
用Python计算三角函数之acos()方法的使用
2015/05/15 Python
详解django中自定义标签和过滤器
2017/07/03 Python
python3 模拟登录v2ex实例讲解
2017/07/13 Python
Python统计python文件中代码,注释及空白对应的行数示例【测试可用】
2018/07/25 Python
python障碍式期权定价公式
2019/07/19 Python
python psutil模块使用方法解析
2019/08/01 Python
postman传递当前时间戳实例详解
2019/09/14 Python
python实现简单日志记录库glog的使用
2019/12/13 Python
详解Python爬虫爬取博客园问题列表所有的问题
2021/01/18 Python
canvas之自定义头像功能实现代码示例
2017/09/29 HTML / CSS
大都会艺术博物馆商店:The Met Store
2018/06/22 全球购物
Elemental Herbology官网:英国美容品牌
2019/04/27 全球购物
垃圾回收的优点和原理
2014/05/16 面试题
护士自我介绍信
2014/01/13 职场文书
养牛场项目建议书
2014/05/13 职场文书
企业承诺书怎么写
2014/05/24 职场文书
幼儿园个人总结
2015/02/28 职场文书
Python基础之变量的相关知识总结
2021/06/23 Python
gateway与spring-boot-starter-web冲突问题的解决
2021/07/16 Java/Android