利用python将pdf输出为txt的实例讲解


Posted in Python onApril 23, 2018

一个礼拜前一个同学问我这个事情,由于之前在参加华为的比赛,所以赛后看了一下,据说需要用到pdfminer这个包。于是安装了一下,安装过程很简单:

sudo pip install pdfminer;

中间也没有任何的报错。至于如何调用,本人也没有很好的研究过pdfminer这个库,于是开始了百度……

官方文档:http://www.unixuser.org/~euske/python/pdfminer/index.html

完全使用python编写。 (适用于2.4或更新版本)

解析,分析,并转换成PDF文档。

PDF-1.7规范的支持。 (几乎)

中日韩语言和垂直书写脚本支持。

各种字体类型(Type1、TrueType、Type3,和CID)的支持。

基本加密(RC4)的支持。

PDF与HTML转换。

纲要(TOC)的提取。

标签内容提取。

通过分组文本块重建原始的布局。

一些基本的类

PDFParser:从一个文件中获取数据

PDFDocument:保存获取的数据,和PDFParser是相互关联的

PDFPageInterpreter处理页面内容

PDFDevice将其翻译成你需要的格式

PDFResourceManager用于存储共享资源,如字体或图像。

利用python将pdf输出为txt的实例讲解

简单的实现

读取test.pdf输出为output.txt:

# -*- coding: utf-8 -*-  
from pdfminer.pdfparser import PDFParser 
from pdfminer.pdfdocument import PDFDocument 
from pdfminer.pdfpage import PDFPage 
from pdfminer.pdfpage import PDFTextExtractionNotAllowed 
from pdfminer.pdfinterp import PDFResourceManager 
from pdfminer.pdfinterp import PDFPageInterpreter 
from pdfminer.pdfdevice import PDFDevice 
from pdfminer.layout import * 
from pdfminer.converter import PDFPageAggregator 
import os 
fp = open('test.pdf', 'rb') 
#来创建一个pdf文档分析器 
parser = PDFParser(fp) 
#创建一个PDF文档对象存储文档结构 
document = PDFDocument(parser) 
# 检查文件是否允许文本提取 
if not document.is_extractable: 
 raise PDFTextExtractionNotAllowed 
else: 
 # 创建一个PDF资源管理器对象来存储共赏资源 
 rsrcmgr=PDFResourceManager() 
 # 设定参数进行分析 
 laparams=LAParams() 
 # 创建一个PDF设备对象 
 # device=PDFDevice(rsrcmgr) 
 device=PDFPageAggregator(rsrcmgr,laparams=laparams) 
 # 创建一个PDF解释器对象 
 interpreter=PDFPageInterpreter(rsrcmgr,device) 
 # 处理每一页 
 for page in PDFPage.create_pages(document): 
  interpreter.process_page(page) 
  # 接受该页面的LTPage对象 
  layout=device.get_result() 
  for x in layout: 
   if(isinstance(x,LTTextBoxHorizontal)): 
    with open('output.txt','a') as f: 
     f.write(x.get_text().encode('utf-8')+'\n')

以上这篇利用python将pdf输出为txt的实例讲解就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python进行数据科学工作的简单入门教程
Apr 01 Python
将Python代码嵌入C++程序进行编写的实例
Jul 31 Python
Python获取当前路径实现代码
May 08 Python
利用python爬取斗鱼app中照片方法实例
Dec 03 Python
python构建深度神经网络(DNN)
Mar 10 Python
Python实现通过继承覆盖方法示例
Jul 02 Python
Python for循环中的陷阱详解
Jul 13 Python
python使用pymongo操作mongo的完整步骤
Apr 13 Python
python lambda表达式(匿名函数)写法解析
Sep 16 Python
Python -m参数原理及使用方法解析
Aug 21 Python
用python写PDF转换器的实现
Oct 29 Python
python用字节处理文件实例讲解
Apr 13 Python
Go/Python/Erlang编程语言对比分析及示例代码
Apr 23 #Python
Python 3.6 读取并操作文件内容的实例
Apr 23 #Python
Python 循环语句之 while,for语句详解
Apr 23 #Python
下载python中Crypto库报错:ModuleNotFoundError: No module named ‘Crypto’的解决
Apr 23 #Python
python批量替换多文件字符串问题详解
Apr 22 #Python
Diango + uwsgi + nginx项目部署的全过程(可外网访问)
Apr 22 #Python
Python3.6笔记之将程序运行结果输出到文件的方法
Apr 22 #Python
You might like
VOLVO车载收音机
2021/03/02 无线电
jQuery中使用了document和window哪些属性和方法小结
2011/09/13 Javascript
关于JAVASCRIPT urldecode URL解码的问题
2012/01/08 Javascript
JavaScript高级程序设计 阅读笔记(二十一) JavaScript中的XML
2012/09/14 Javascript
JS限制上传图片大小不使用控件在本地实现
2012/12/19 Javascript
JS、jquery实现几分钟前、几小时前、几天前等时间差显示效果的代码实例分享
2014/04/11 Javascript
jQuery产品间断向下滚动效果核心代码
2014/05/08 Javascript
javascript实现炫酷的拖动分页
2015/05/11 Javascript
Javascript实现飞动广告效果的方法
2015/05/25 Javascript
AngularJs Modules详解及示例代码
2016/09/01 Javascript
Node.js + Redis Sorted Set实现任务队列
2016/09/19 Javascript
JavaScript中常用的验证reg
2016/10/13 Javascript
使用requirejs模块化开发多页面一个入口js的使用方式
2017/06/14 Javascript
使用vue点击li,获取当前点击li父辈元素的属性值方法
2018/09/12 Javascript
JavaScript简单实现的仿微博留言功能示例
2019/01/17 Javascript
详解如何写出一个利于扩展的vue路由配置
2019/05/16 Javascript
vue+elementUI实现图片上传功能
2019/08/20 Javascript
Node.js开发之套接字(socket)编程入门示例
2019/11/05 Javascript
three.js 将图片马赛克化的示例代码
2020/07/31 Javascript
详解 javascript对象创建模式
2020/10/30 Javascript
[44:15]DOTA2上海特级锦标赛主赛事日 - 5 败者组决赛Liquid VS EG第二局
2016/03/06 DOTA
详解python pandas 分组统计的方法
2019/07/30 Python
Python判断远程服务器上Excel文件是否被人打开的方法
2020/07/13 Python
美国著名珠宝品牌之一:Jared The Galleria Of Jewelry
2016/10/01 全球购物
英国最大的女士服装零售商:Bonmarché
2017/08/17 全球购物
约瑟夫·特纳男装:Joseph Turner
2017/10/10 全球购物
【魔兽争霸3重制版】原版画面与淬火MOD画面对比
2021/03/26 魔兽争霸
写自荐信要注意什么
2013/12/26 职场文书
学生会招新策划书
2014/02/14 职场文书
领导调研接待方案
2014/02/27 职场文书
感恩父母的演讲稿
2014/05/06 职场文书
学习雷锋标语
2014/06/25 职场文书
大学生找工作求职信
2014/07/09 职场文书
小学教师节活动总结
2015/03/20 职场文书
婚庆主持词大全
2015/06/30 职场文书
初中英语教学随笔
2015/08/15 职场文书