编程 Python

使用pandas生成/读取csv文件的方法实例

Posted in Python onJuly 09, 2021

前言

csv是我接触的比较早的一种文件，比较好的是这种文件既能够以电子表格的形式查看又能够以文本的形式查看。

先引入pandas库

import pandas as pd

方法一：

1、我构造了一个cont_list，结构为列表嵌套字典，字典是每一个样本，类似于我们爬虫爬下来的数据的结构

2、利用pd.DataFrame方法先将数据转换成一个二维结构数据，如下方打印的内容所示，cloumns指定列表，列表必须是列表

3、to_csv方法可以直接保存csv文件，index=False表示csv文件不加行序号

使用pandas生成/读取csv文件的方法实例

保存csv结果

使用pandas生成/读取csv文件的方法实例

应用到我们的爬虫代码，传入的con_list就是[{},{},{}****]这样的额数据结构，encoding="utf_8_sig"，encoding="gb18030”,我这边解决中文编码问题

使用pandas生成/读取csv文件的方法实例

是不是很方便就，2行代码即可搞定保存，是不是比上次讲的方法简单好多，其实很多方法，还有python的优秀库，都使python这门语言在数据分析领域有极大的优势

使用pandas生成/读取csv文件的方法实例

方法二：

流程：模拟登录→获取Html页面→正则解析所有符合条件的行→逐一将符合条件的行的所有列存入到CSVData[]临时变量中→写入到CSV文件中

核心代码：

####写入csv文件中
 
with open(self.CsvFileName, 'wb') as csvfile:
 
spamwriter = csv.writer(csvfile, dialect='excel')
 
#设置标题
 
spamwriter.writerow(["游戏账号","用户类型","游戏名称","渠道","充值类型","充值金额","返利金额","单号","日期"])
 
#将CsvData中的数据循环写入到CsvFileName文件中
 
for item in self.CsvData:
 
spamwriter.writerow(item)

完整代码：

# coding=utf-8
 
import urllib
 
import urllib2
 
import cookielib
 
import re
 
import csv
 
import sys
 
 
class Pyw():
 
#初始化数据
 
def __init__(self):
 
#登录的Url地址
 
self.LoginUrl="http://v.pyw.cn/login/check"
 
#所要获取的Url地址
 
self.PageUrl="http://v.pyw.cn/Data/accountdetail/%s"
 
# 传输的数据：用户名、密码、是否记住用户名
 
self.PostData = urllib.urlencode({
 
"username": "15880xxxxxx",
 
"password": "a123456",
 
"remember": "1"
 
})
 
#第几笔记录
 
self.PageIndex=0;
 
#循环获取共4页内容
 
self.PageTotal=1
 
#正则解析出tr
 
self.TrExp=re.compile("(?isu)<tr[^>]*>(.*?)</tr>")
 
#正则解析出td
 
self.TdExp = re.compile("(?isu)<td[^>]*>(.*?)</td>")
 
#创建cookie
 
self.cookie = cookielib.CookieJar()
 
#构建opener
 
self.opener=urllib2.build_opener(urllib2.HTTPCookieProcessor(self.cookie))
 
#解析页面总页数
 
self.Total=4
 
#####设置csv文件
 
self.CsvFileName="Pyw.csv"
 
#####存储Csv数据
 
self.CsvData=[]
 
 
#解析网页中的内容
 
def GetPageItem(self,PageHtml):
 
#循环取出Table中的所有行
 
for row in self.TrExp.findall(PageHtml):
 
#取出当前行的所有列
 
coloumn=self.TdExp.findall(row)
 
#判断符合的记录
 
if len(coloumn) == 9:
 
# print "游戏账号:%s" % coloumn[0].strip()
 
# print "用户类型:%s" % coloumn[1].strip()
 
# print "游戏名称:%s" % coloumn[2].strip()
 
# print "渠道:%s" % coloumn[3].strip()
 
# print "充值类型:%s" % coloumn[4].strip()
 
# print "充值金额:%s" % coloumn[5].strip().replace("￥", "")
 
# print "返利金额:%s" % coloumn[6].strip().replace("￥", "")
 
# print "单号:%s" % coloumn[7].strip()
 
# print "日期:%s" % coloumn[8].strip()
 
#拼凑行数据
 
d=[coloumn[0].strip(),
 
coloumn[1].strip(),
 
coloumn[2].strip(),
 
coloumn[3].strip(),
 
coloumn[4].strip(),
 
coloumn[5].strip().replace("￥", ""),
 
coloumn[6].strip().replace("￥", ""),
 
coloumn[7].strip(),
 
coloumn[8].strip()]
 
self.CsvData.append(d)
 
 
#模拟登录并获取页面数据
 
def GetPageHtml(self):
 
try:
 
#模拟登录
 
request=urllib2.Request(url=self.LoginUrl,data=self.PostData)
 
ResultHtml=self.opener.open(request)
 
#开始执行获取页面数据
 
while self.PageTotal<=self.Total:
 
#动态拼凑所要解析的Url
 
m_PageUrl = self.PageUrl % self.PageTotal
 
#计算当期第几页
 
self.PageTotal = self.PageTotal + 1
 
#获取当前解析页面的所有内容
 
ResultHtml=self.opener.open(m_PageUrl)
 
#解析网页中的内容
 
self.GetPageItem(ResultHtml.read())
 
 
####写入Csv文件中
 
with open(self.CsvFileName, 'wb') as csvfile:
 
spamwriter = csv.writer(csvfile, dialect='excel')
 
#设置标题
 
spamwriter.writerow(["游戏账号","用户类型","游戏名称","渠道","充值类型","充值金额","返利金额","单号","日期"])
 
#将CsvData中的数据循环写入到CsvFileName文件中
 
for item in self.CsvData:
 
spamwriter.writerow(item)
 
 
print "成功导出CSV文件！"
 
except Exception,e:
 
print "404 error!%s" % e
 
#实例化类
 
p=Pyw()
 
#执行方法
 
p.GetPageHtml()

导出结果

使用pandas生成/读取csv文件的方法实例

读取CSV

import pandas as pd

data = pd.read_table('地址', sep=",")['网址'].values

print(data[1])

总结

到此这篇关于使用pandas生成/读取csv文件的文章就介绍到这了,更多相关pandas生成读取csv文件内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木！

使用pandas生成/读取csv文件的方法实例

- Author -

滑冰选手库里

- Original Sources -

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

使用python实现baidu hi自动登录的代码

Feb 10 Python

python使用fcntl模块实现程序加锁功能示例

Jun 23 Python

python爬虫实战之最简单的网页爬虫教程

Aug 13 Python

Python logging管理不同级别log打印和存储实例

Jan 19 Python

浅谈Python中的zip()与*zip()函数详解

Feb 24 Python

详解如何减少python内存的消耗

Aug 09 Python

Python使用scipy模块实现一维卷积运算示例

Sep 05 Python

python yield和Generator函数用法详解

Feb 10 Python

Python实现动态给类和对象添加属性和方法操作示例

Feb 29 Python

Python爬取股票信息，并可视化数据的示例

Sep 26 Python

python爬虫使用scrapy注意事项

Nov 23 Python

python编写函数注意事项总结

Mar 29 Python

python自动化八大定位元素讲解

python实现简单聊天功能

Python re.sub 反向引用的实现

Jul 07 #Python

Python制作一个随机抽奖小工具的实现

Python 数据科学 Matplotlib图库详解

Python3中最常用的5种线程锁实例总结

Jul 07 #Python

python实现简单的聊天小程序

You might like

农民和部队如何穿矿

2020/03/04 星际争霸

php 分库分表hash算法

2009/11/12 PHP

php下使用curl模拟用户登陆的代码

2010/09/10 PHP

非常精妙的PHP递归调用与静态变量使用

2012/12/16 PHP

php使用google地图应用实例

2014/12/31 PHP

浅谈本地WAMP环境的搭建

2015/05/13 PHP

基于jquery创建的一个图片、视频缓冲的效果样式插件

2012/08/28 Javascript

input禁止键盘及中文输入,但可以点击

2014/02/13 Javascript

如何用jquery控制表格奇偶行及活动行颜色

2014/04/20 Javascript

谈谈我对JavaScript中typeof和instanceof的深入理解

2015/12/25 Javascript

JS通过Cookie判断页面是否为首次打开

2016/02/05 Javascript

js动态生成form 并用ajax方式提交的实现方法

2016/09/09 Javascript

JS实现旋转木马式图片轮播效果

2017/01/18 Javascript

Web 开发中Ajax的Session 超时处理方法

2017/01/19 Javascript

JS高仿抛物线加入购物车特效实现代码

2017/02/20 Javascript

angularjs实现柱状图动态加载的示例

2017/12/11 Javascript

nodejs+mongodb+vue前后台配置ueditor的示例代码

2018/01/02 NodeJs

[02:17]2016国际邀请赛中国区预选赛VG战队领队采访

2016/06/26 DOTA

Python实现的石头剪子布代码分享

2014/08/22 Python

Python中列表list以及list与数组array的相互转换实现方法

2017/09/22 Python

Python字符串逆序的实现方法【一题多解】

2019/02/18 Python

python 修改本地网络配置的方法

2019/08/14 Python

Python 点击指定位置验证码破解的实现代码

2019/09/11 Python

如何安装2019Pycharm最新版本(详细教程)

2019/09/26 Python

Django app配置多个数据库代码实例

2019/12/17 Python

Python xmltodict模块安装及代码实例

2020/10/05 Python

python的scipy.stats模块中正态分布常用函数总结

2021/02/19 Python

html5实现移动端适配完美写法

2017/11/16 HTML / CSS

AmazeUI 列表的实现示例

2020/08/17 HTML / CSS

NEW LOOK官网：英国时装零售巨头之一，快时尚品牌

2017/01/11 全球购物

仪器仪表检测毕业生自荐信

2013/10/31 职场文书

运动会通讯稿300字

2014/02/02 职场文书

迟到检讨书500字

2014/02/05 职场文书

2015年度公共机构节能工作总结

2015/05/26 职场文书

纪录片信仰观后感

2015/06/08 职场文书

springboot+rabbitmq实现智能家居实例详解

2022/07/23 Java/Android