Python实现Excel文件的合并(以新冠疫情数据为例)


Posted in Python onMarch 20, 2022

注:本篇文章以新冠疫情数据文件的合并为例。

需要相关数据的请移步:》2020-2022年新冠疫情数据

一、单目录下面的数据合并

Python实现Excel文件的合并(以新冠疫情数据为例)

将2020下的所有文件进行合并,成一个文件:

import requests
import json
import openpyxl
import datetime
import datetime as dt
import time
import pandas as pd
import csv
from openpyxl import load_workbook
from sqlalchemy import create_engine
import math
import os
import glob
csv_list=glob.glob(r'D:\Python\03DataAcquisition\COVID-19\2020\*.csv')
print("所有数据文件总共有%s" %len(csv_list))
for i in csv_list:
    fr=open(i,"rb").read() #除了第一个数据文件外,其他不读取表头
    with open('../output/covid19temp0314.csv','ab') as f:
        f.write(fr)
    f.close()
print('数据合成完毕!')

Python实现Excel文件的合并(以新冠疫情数据为例)

合并后的数据:

Python实现Excel文件的合并(以新冠疫情数据为例)

二、使用函数进行数据合并

## 02 使用函数进行数据合并
import os
import pandas as pd 
# 定义函数(具有递归功能)
def mergeFile(parent,path="",pathdeep=0,filelist=[],csvdatadf=pd.DataFrame(),csvdata=pd.DataFrame()):
    fileAbsPath=os.path.join(parent,path)
    if os.path.isdir(fileAbsPath)==True:
        if(pathdeep!=0 and ('.ipynb_checkpoints' not in str(fileAbsPath))): # =0代表没有下一层目录
            print('--'+path)
        for filename2 in os.listdir(fileAbsPath):
            mergeFile(fileAbsPath,filename2,pathdeep=pathdeep+1)
    else:
        if(pathdeep==2 and path.endswith(".csv") and os.path.getsize(parent+'/'+path)>0):
            filelist.append(parent+'/'+path)
    return filelist

# D:\Python\03DataAcquisition\COVID-19
path=input("请输入数据文件所在目录:")
filelist=mergeFile(path)

filelist

csvdata=pd.DataFrame()
csvdatadf=pd.DataFrame()

for m in filelist:
    csvdata=pd.read_csv(m,encoding='utf-8-sig')
    csvdatadf=csvdatadf.append(csvdata)
# 由于2023年的数据还没有,所以不合并

Python实现Excel文件的合并(以新冠疫情数据为例)

(* ̄(oo) ̄)注: 这个的等待时间应该会比较长,因为一共有一百九十多万条数据。

将合并后的数据进行保存:

csvdatadf.to_csv("covid190314.csv",index=None,encoding='utf-8-sig')
csvdatadf=pd.read_csv("covid190314.csv",encoding='utf-8-sig')
csvdatadf.info()

Python实现Excel文件的合并(以新冠疫情数据为例)

读取新冠疫情在2020/0101之前的数据:

beforedf=pd.read_csv(r'D:\Python\03DataAcquisition\COVID-19\before20201111.csv',encoding='utf-8-sig')
beforedf.info()

Python实现Excel文件的合并(以新冠疫情数据为例)

Python实现Excel文件的合并(以新冠疫情数据为例)

将两组数据合并:

tempalldf=beforedf.append(csvdatadf)
tempalldf.head()

Python实现Excel文件的合并(以新冠疫情数据为例)

三、处理港澳台数据

Python实现Excel文件的合并(以新冠疫情数据为例)

如图所示:要将Country_Region从Hong Kong变成China。澳门和台湾也是如此:

查找有关台湾的数据:

beforedf.loc[beforedf['Country/Region']=='Taiwan']
beforedf.loc[beforedf['Country/Region'].str.contains('Taiwan')]
beforedf.loc[beforedf['Country/Region'].str.contains('Taiwan'),'Province/State']='Taiwan'
beforedf.loc[beforedf['Province/State']=='Taiwan','Country/Region']='China'
beforedf.loc[beforedf['Province/State']=='Taiwan']

Python实现Excel文件的合并(以新冠疫情数据为例)

香港的数据处理:

beforedf.loc[beforedf['Country/Region'].str.contains('Hong Kong'),'Province/State']='Hong Kong'
beforedf.loc[beforedf['Province/State']=='Hong Kong','Country/Region']='China'
afterdf.loc[afterdf['Country_Region'].str.contains('Hong Kong'),'Province_State']='Hong Kong'
afterdf.loc[afterdf['Province_State']=='Hong Kong','Country_Region']='China'

澳门的数据处理:

beforedf.loc[beforedf['Country/Region'].str.contains('Macau'),'Province/State']='Macau'
beforedf.loc[beforedf['Province/State']=='Macau','Country/Region']='China'
afterdf.loc[afterdf['Country_Region'].str.contains('Macau'),'Province_State']='Macau'
afterdf.loc[afterdf['Province_State']=='Macau','Country_Region']='China'

最终将整理好的数据进行保存:

beforedf.to_csv("beforedf0314.csv",index=None,encoding='utf-8-sig')
afterdf.to_csv("afterdf0314.csv",index=None,encoding='utf-8-sig')

Python实现Excel文件的合并(以新冠疫情数据为例)

到此这篇关于Python实现Excel文件的合并(以新冠疫情数据为例)的文章就介绍到这了,更多相关Python合并Excel内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
Python中使用item()方法遍历字典的例子
Aug 26 Python
在Linux上安装Python的Flask框架和创建第一个app实例的教程
Mar 30 Python
在Python的Django框架中创建语言文件
Jul 27 Python
Python之web模板应用
Dec 26 Python
python 字符串常用函数详解
Sep 11 Python
Python Django框架模板渲染功能示例
Nov 08 Python
python用pip install时安装失败的一系列问题及解决方法
Feb 24 Python
pycharm新建Vue项目的方法步骤(图文)
Mar 04 Python
Python如何定义接口和抽象类
Jul 28 Python
python opencv角点检测连线功能的实现代码
Nov 24 Python
pycharm2021激活码使用教程(永久激活亲测可用)
Mar 30 Python
关于python类SortedList详解
Sep 04 Python
Python中三种花式打印的示例详解
Mar 19 #Python
Python学习之包与模块详解
Python requests用法和django后台处理详解
Mar 19 #Python
Python实现Hash算法
Mar 18 #Python
python实现会员信息管理系统(List)
Mar 18 #Python
Python实现归一化算法详情
Mar 18 #Python
python实现会员管理系统
Mar 18 #Python
You might like
PHP 防注入函数(格式化数据)
2011/08/08 PHP
PHP使用GIFEncoder类生成的GIF动态图片验证码
2014/07/01 PHP
php递归法读取目录及文件的方法
2015/01/30 PHP
如何把php5.3版本升级到php5.4或者php5.5
2015/07/31 PHP
贴一个在Mozilla中常用的Javascript代码
2007/01/09 Javascript
js常用自定义公共函数汇总
2014/01/15 Javascript
jQuery 无限级菜单的简单实例
2014/02/21 Javascript
用jquery的方法制作一个简单的导航栏
2014/06/23 Javascript
谷歌地图打不开的解决办法
2014/08/07 Javascript
基于jquery实现发送文章到手机的代码
2014/12/26 Javascript
JS重载实现方法分析
2016/12/16 Javascript
angular2倒计时组件使用详解
2017/01/12 Javascript
JavaScript轮播图简单制作方法
2017/02/20 Javascript
vue input输入框模糊查询的示例代码
2018/05/22 Javascript
NodeJS 将文件夹按照存放路径变成一个对应的JSON的方法
2018/10/17 NodeJs
微信小程序和百度的语音识别接口详解
2019/05/06 Javascript
Vue中UI组件库之Vuex与虚拟服务器初识
2019/05/07 Javascript
vue实现滑动超出指定距离回顶部功能
2019/07/31 Javascript
原生javascript实现类似vue的数据绑定功能示例【观察者模式】
2020/02/24 Javascript
解决ant Design中this.props.form.validateFields未执行的问题
2020/10/27 Javascript
uni-app使用countdown插件实现倒计时
2020/11/01 Javascript
教你安装python Django(图文)
2013/11/04 Python
python与php实现分割文件代码
2017/03/06 Python
TF-IDF与余弦相似性的应用(一) 自动提取关键词
2017/12/21 Python
Python中XlsxWriter模块简介与用法分析
2018/04/24 Python
使用python3实现操作串口详解
2019/01/01 Python
pytz格式化北京时间多出6分钟问题的解决方法
2019/06/21 Python
使用pandas实现筛选出指定列值所对应的行
2020/12/13 Python
利用HTML5实现使用按钮控制背景音乐开关
2015/09/21 HTML / CSS
C#软件工程师英语面试题
2015/06/07 面试题
项目负责人任命书
2014/06/04 职场文书
博士生专家推荐信
2015/03/25 职场文书
总经理助理岗位职责范本
2015/03/31 职场文书
刑事案件上诉状
2015/05/23 职场文书
SQLServer 日期函数大全(小结)
2021/04/08 SQL Server
Python调用腾讯API实现人脸身份证比对功能
2022/04/04 Python