python 使用pdfminer3k 读取PDF文档的例子


Posted in Python onAugust 27, 2019

1、安装 pdfminer3k

通过pip安装: pip install pdfminer3k

下载安装:在网页 https://pypi.org/project/pdfminer3k/1.3.1/#files 进行下载,解压。然后cmd命令进入到当前文件夹:

可以直接在资源管理器的路径栏直接输入cmd进入到当前目录。然后执行 python setup.py install 等待安装完成

python 使用pdfminer3k 读取PDF文档的例子


2.读取pdf中的TXT代码示例:

from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LAParams
from pdfminer.pdfparser import PDFParser, PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.pdfdevice import PDFDevice

# 可以使用此方法获取网络上的pdf
from urllib.request import urlopen
fp = urlopen("https://******/articles/800348152163.pdf")

#获取文档对象
#fp = open("****.pdf", "rb")

#创建一个一个与文档关联的解释器
parser = PDFParser(fp)

#PDF文档的对象
doc = PDFDocument()

#连接解释器和文档对象
parser.set_document(doc)
doc.set_parser(parser)

#初始化文档,当前文档没有密码,设为空字符串
doc.initialize("")

#创建PDF资源管理器
resource = PDFResourceManager()

#参数分析器
laparam = LAParams()

#创建一个聚合器
device = PDFPageAggregator(resource, laparams=laparam)

#创建PDF页面解释器
interpreter = PDFPageInterpreter(resource, device)

#使用文档对象得到页面的集合
for page in doc.get_pages():
 # 使用页面解释器读取
 interpreter.process_page(page)

 # 使用聚合器来获得内容
 layout = device.get_result()

 for out in layout:
  if hasattr(out, "get_text"):
   print(out.get_text())

以上这篇python 使用pdfminer3k 读取PDF文档的例子就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python和php通信乱码问题解决方法
Apr 15 Python
对python中dict和json的区别详解
Dec 18 Python
Python实现的读取文件内容并写入其他文件操作示例
Apr 09 Python
Python使用random模块生成随机数操作实例详解
Sep 17 Python
Python使用selenium + headless chrome获取网页内容的方法示例
Oct 16 Python
Python中生成一个指定长度的随机字符串实现示例
Nov 06 Python
基于python及pytorch中乘法的使用详解
Dec 27 Python
解决Jupyter无法导入已安装的 module问题
Apr 17 Python
pycharm全局搜索的具体步骤
Jul 28 Python
一篇文章教你用python画动态爱心表白
Nov 22 Python
python爬虫中的url下载器用法详解
Nov 30 Python
Python3中PyQt5简单实现文件打开及保存
Jun 10 Python
手写一个python迭代器过程详解
Aug 27 #Python
浅析Python语言自带的数据结构有哪些
Aug 27 #Python
python3应用windows api对后台程序窗口及桌面截图并保存的方法
Aug 27 #Python
python协程gevent案例 爬取斗鱼图片过程解析
Aug 27 #Python
Python中Unittest框架的具体使用
Aug 27 #Python
详解python3中用HTMLTestRunner.py报ImportError: No module named 'StringIO'如何解决
Aug 27 #Python
Python3分析处理声音数据的例子
Aug 27 #Python
You might like
PHP类型约束用法示例
2016/09/28 PHP
JavaScript delete 属性的使用
2009/10/08 Javascript
ExtJs事件机制基本代码模型和流程解析
2010/10/24 Javascript
使用jquery动态加载javascript以减少服务器压力
2012/10/29 Javascript
JS实现的省份级联实例代码
2013/06/24 Javascript
js判断选择的时间是否大于今天的代码
2013/08/20 Javascript
JS实现CheckBox复选框全选全不选功能
2015/05/06 Javascript
jQuery仿360导航页图标拖动排序效果代码分享
2015/08/24 Javascript
DeviceOne 让你一见钟情的App快速开发平台
2016/02/17 Javascript
教你用javascript实现随机标签云效果_附代码
2016/03/16 Javascript
详解webpack进阶之插件篇
2017/07/06 Javascript
js实现随机点名小功能
2017/08/17 Javascript
vuex中使用对象展开运算符的示例
2017/09/25 Javascript
fetch 使用及如何接收JS传值
2017/11/11 Javascript
vue+render+jsx实现可编辑动态多级表头table的实例代码
2020/04/01 Javascript
[51:00]Secret vs VGJ.S 2018国际邀请赛淘汰赛BO3 第一场 8.24
2018/08/25 DOTA
python动态参数用法实例分析
2015/05/25 Python
听歌识曲--用python实现一个音乐检索器的功能
2016/11/15 Python
Python实现一个带权无回置随机抽选函数的方法
2019/07/24 Python
web页面录屏实现
2019/02/12 HTML / CSS
小程序瀑布流解决左右两边高度差距过大的问题
2019/02/20 HTML / CSS
国际书籍零售商:Wordery
2017/11/01 全球购物
印尼披萨外送专家:Domino’s Pizza印尼
2017/12/28 全球购物
国家励志奖学金获奖感言
2014/01/09 职场文书
《雷鸣电闪波尔卡》教学反思
2014/02/23 职场文书
中秋手机店促销方案
2014/06/16 职场文书
交通安全横幅标语
2014/10/07 职场文书
论群众路线学习心得体会
2014/10/31 职场文书
2014年食堂工作总结
2014/11/20 职场文书
土地租赁协议书
2015/01/29 职场文书
六一文艺汇演开幕词
2015/01/29 职场文书
演讲比赛通讯稿
2015/07/18 职场文书
创业计划书之校园跑腿公司
2019/09/24 职场文书
python中if和elif的区别介绍
2021/11/07 Python
vue实现列表拖拽排序的示例代码
2022/04/08 Vue.js
python游戏开发之pygame实现接球小游戏
2022/04/22 Python