python从PDF中提取数据的示例


Posted in Python onOctober 30, 2020

01

前言

数据是数据科学中任何分析的关键,大多数分析中最常用的数据集类型是存储在逗号分隔值(csv)表中的干净数据。然而,由于可移植文档格式(pdf)文件是最常用的文件格式之一,因此每个数据科学家都应该了解如何从pdf文件中提取数据,并将数据转换为诸如“csv”之类的格式,以便用于分析或构建模型。

在本文中,我们将重点讨论如何从pdf文件中提取数据表。类似的分析可以用于从pdf文件中提取其他类型的数据,如文本或图像。我们将说明如何从pdf文件中提取数据表,然后将其转换为适合于进一步分析和构建模型的格式。我们将给出一个实例。

python从PDF中提取数据的示例

02

示例:使用Python从PDF文件中提取一个表格

a)将表复制到Excel并保存为table_1_raw.csv

python从PDF中提取数据的示例

数据以一维格式存储,必须进行重塑、清理和转换。

b)导入必要的库

import pandas as pd
import numpy as np

c)导入原始数据,重新定义数据

df=pd.read_csv("table_1_raw.csv", header=None)
df.values.shape
df2=pd.DataFrame(df.values.reshape(25,10))
column_names=df2[0:1].values[0]
df3=df2[1:]
df3.columns = df2[0:1].values[0]
df3.head()

python从PDF中提取数据的示例

d)使用字符串处理工具进行数据纠缠

我们从上面的表格中注意到,x5、x6和x7列是用百分比表示的,所以我们需要去掉percent(%)符号:

df4['x5']=list(map(lambda x: x[:-1], df4['x5'].values))
df4['x6']=list(map(lambda x: x[:-1], df4['x6'].values))
df4['x7']=list(map(lambda x: x[:-1], df4['x7'].values))

e)将数据转换为数字形式

我们注意到列x5、x6和x7的列值数据类型为string,因此我们需要将它们转换为数值数据,如下所示:

df4['x5']=[float(x) for x in df4['x5'].values]
df4['x6']=[float(x) for x in df4['x6'].values]
df4['x7']=[float(x) for x in df4['x7'].values]

f)查看转换数据的最终形式

df4.head(n=5)

python从PDF中提取数据的示例

g)导出最终数据到一个csv文件

df4.to_csv('table_1_final.csv',index=False)

以上就是python从PDF中提取数据的示例的详细内容,更多关于python 提取PDF数据的资料请关注三水点靠木其它相关文章!

Python 相关文章推荐
python中stdout输出不缓存的设置方法
May 29 Python
Python入门及进阶笔记 Python 内置函数小结
Aug 09 Python
python使用pil生成图片验证码的方法
May 08 Python
wx.CheckBox创建复选框控件并响应鼠标点击事件
Apr 25 Python
python中协程实现TCP连接的实例分析
Oct 14 Python
Python 确定多项式拟合/回归的阶数实例
Dec 29 Python
python 含子图的gif生成时内存溢出的方法
Jul 07 Python
python numpy存取文件的方式
Apr 01 Python
python实现计算器功能
Oct 31 Python
python验证码图片处理(二值化)
Nov 01 Python
python时间日期操作方法实例小结
Feb 06 Python
基于python实现数组格式参数加密计算
Apr 21 Python
详解python百行有效代码实现汉诺塔小游戏(简约版)
Oct 30 #Python
python boto和boto3操作bucket的示例
Oct 30 #Python
python 多进程和协程配合使用写入数据
Oct 30 #Python
python打包生成so文件的实现
Oct 30 #Python
pytorch 移动端部署之helloworld的使用
Oct 30 #Python
把Anaconda中的环境导入到Pycharm里面的方法步骤
Oct 30 #Python
Python模拟登录和登录跳转的参考示例
Oct 30 #Python
You might like
基于php常用正则表达式的整理汇总
2013/06/08 PHP
在WordPress中安装使用视频播放器插件Hana Flv Player
2016/01/04 PHP
phpstorm最新激活码分享亲测phpstorm2020.2.3版可用
2020/11/22 PHP
JavaScript实现Sleep函数的代码
2007/03/04 Javascript
IE6下JS动态设置图片src地址问题
2010/01/08 Javascript
如何让div span等元素能响应键盘事件操作指南
2012/11/13 Javascript
cookie的复制与使用记住用户名实现代码
2013/11/04 Javascript
jQuery Ajax异步处理Json数据详解
2013/11/05 Javascript
Javascript Ajax异步读取RSS文档具体实现
2013/12/12 Javascript
Jquery利用mouseenter和mouseleave实现鼠标经过弹出层且可以点击
2014/02/12 Javascript
js 通过html()及text()方法获取并设置p标签的显示值
2014/05/14 Javascript
禁止iframe页面的所有js脚本如alert及弹出窗口等
2014/09/03 Javascript
深入理解JavaScript系列(50):Function模式(下篇)
2015/03/04 Javascript
JavaScript Sort 的一个错误用法示例
2015/03/20 Javascript
BootStrap点击下拉菜单项后显示一个新的输入框实现代码
2016/05/16 Javascript
jQueryUI中的datepicker使用方法详解
2016/05/25 Javascript
理解 Node.js 事件驱动机制的原理
2017/08/16 Javascript
seajs模块压缩问题与解决方法实例分析
2017/10/10 Javascript
[49:08]FNATIC vs Infamous 2019国际邀请赛小组赛 BO2 第二场 8.16
2019/08/18 DOTA
python简单的函数定义和用法实例
2015/05/07 Python
Python实现将一个正整数分解质因数的方法分析
2017/12/14 Python
python实现内存监控系统
2021/03/07 Python
Django的用户模块与权限系统的示例代码
2019/07/24 Python
python字符串常用方法及文件简单读写的操作方法
2020/03/04 Python
Django Admin后台添加数据库视图过程解析
2020/04/01 Python
通过Python实现Payload分离免杀过程详解
2020/07/13 Python
python Matplotlib基础--如何添加文本和标注
2021/01/26 Python
html5新增的属性和废除的属性简要概述
2013/02/20 HTML / CSS
美国摄影爱好者购物网站:Focus Camera
2016/10/21 全球购物
优秀德育工作者事迹材料
2014/05/07 职场文书
奥林匹克的口号
2014/06/13 职场文书
小学生田径运动会广播稿
2014/09/11 职场文书
幼儿教师自我剖析材料
2014/09/29 职场文书
预备党员的思想汇报,你真的会写吗?
2019/06/28 职场文书
pdf论文中python画的图Type 3 fonts字体不兼容的解决方案
2021/04/24 Python
微软Win11什么功能最惊艳? Windows11新功能特性汇总
2021/11/21 数码科技