Python实现pdf文档转txt的方法示例


Posted in Python onJanuary 19, 2018

本文实例讲述了Python实现pdf文档转txt的方法。分享给大家供大家参考,具体如下:

首先,这是一个比较粗糙的版本,因为已经够用了,而且对pdf的格式不熟悉,所以暂时没有进一步优化。

还有,这是转成txt的,所以如果是有图片的pdf是无法保存图片的。

至于本来就是图片的文本,这里是无法分析出来的。那些图片的pdf,估计要用图形匹配的方式来处理,类似于超速拍摄的车牌识别。

不过这样的程度,已经不是文本处理了。扯远了。。。

转出来的文字,好像按照pdf里面的所展示的来换行了,看不到有什么规则还原,我也不知道怎么处理,将就着用吧。

另外,初始代码是网上找的,最初地址不知道哪里了。

用到了第三方库pdfminier

pdfminer库的地址 https://pypi.python.org/pypi/pdfminer3k

下载后,用cmd执行命令 setup.py install

安装完之后打开eclipse会弹出要求加载一些东西,点击确定就行了。

再来看看代码:

import os.path
from pdfminer.pdfparser import PDFParser,PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LTTextBoxHorizontal,LAParams
from pdfminer.pdfinterp import PDFTextExtractionNotAllowed
class CPdf2TxtManager():
  '''''
  classdocs
  '''
  def __init__(self):
    '''''
    Constructor
    '''
  def changePdfToText(self, filePath):
    file = open(path, 'rb') # 以二进制读模式打开
    #用文件对象来创建一个pdf文档分析器
    praser = PDFParser(file)
    # 创建一个PDF文档
    doc = PDFDocument()
    # 连接分析器 与文档对象
    praser.set_document(doc)
    doc.set_parser(praser)
    # 提供初始化密码
    # 如果没有密码 就创建一个空的字符串
    doc.initialize()
    # 检测文档是否提供txt转换,不提供就忽略
    if not doc.is_extractable:
      raise PDFTextExtractionNotAllowed
    # 创建PDf 资源管理器 来管理共享资源
    rsrcmgr = PDFResourceManager()
    # 创建一个PDF设备对象
    laparams = LAParams()
    device = PDFPageAggregator(rsrcmgr, laparams=laparams)
    # 创建一个PDF解释器对象
    interpreter = PDFPageInterpreter(rsrcmgr, device)
    pdfStr = ''
    # 循环遍历列表,每次处理一个page的内容
    for page in doc.get_pages(): # doc.get_pages() 获取page列表
      interpreter.process_page(page)
      # 接受该页面的LTPage对象
      layout = device.get_result()
      # 这里layout是一个LTPage对象 里面存放着 这个page解析出的各种对象 一般包括LTTextBox, LTFigure, LTImage, LTTextBoxHorizontal 等等 想要获取文本就获得对象的text属性,
      for x in layout:
        if (isinstance(x, LTTextBoxHorizontal)):
          pdfStr = pdfStr + x.get_text() + '\n'
    fileNames = os.path.splitext(filePath)
    file2 = open(fileNames[0] + '.txt','wb')#保存这些内容
    file2.write(pdfStr.encode())
    file2.close()
    file.close()
if __name__ == '__main__':
  '''''
   解析pdf 文本,保存到txt文件中
  '''
  path = r'C:\Users\Administrator\Desktop\《精力管理》.pdf'
  pdf2TxtManager = CPdf2TxtManager()
  pdf2TxtManager.changePdfToText(path)

更多Python相关内容感兴趣的读者可查看本站专题:《Python文件与目录操作技巧汇总》、《Python编码操作技巧总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》及《Python入门与进阶经典教程》

希望本文所述对大家Python程序设计有所帮助。

Python 相关文章推荐
Ubuntu下安装PyV8
Mar 13 Python
浅谈python新手中常见的疑惑及解答
Jun 14 Python
Python中int()函数的用法浅析
Oct 17 Python
Python实现替换文件中指定内容的方法
Mar 19 Python
django orm 通过related_name反向查询的方法
Dec 15 Python
pandas实现to_sql将DataFrame保存到数据库中
Jul 03 Python
tensorflow 环境变量设置方式
Feb 06 Python
Python爬虫工具requests-html使用解析
Apr 29 Python
python 密码学示例——理解哈希(Hash)算法
Sep 21 Python
Python 测试框架unittest和pytest的优劣
Sep 26 Python
python 基于wx实现音乐播放
Nov 24 Python
使用Python webdriver图书馆抢座自动预约的正确方法
Mar 04 Python
浅谈Python实现2种文件复制的方法
Jan 19 #Python
用Python进行简单图像识别(验证码)
Jan 19 #Python
flask中使用蓝图将路由分开写在不同文件实例解析
Jan 19 #Python
python模拟事件触发机制详解
Jan 19 #Python
flask使用session保存登录状态及拦截未登录请求代码
Jan 19 #Python
简单谈谈python中的lambda表达式
Jan 19 #Python
python使用logging模块发送邮件代码示例
Jan 18 #Python
You might like
php中stream(流)的用法
2014/03/25 PHP
PHP模板引擎Smarty自定义变量调解器用法
2016/04/11 PHP
让FireFox支持innerText的实现代码
2009/12/01 Javascript
JavaScript学习笔记(十七)js 优化
2010/02/04 Javascript
js控制web打印(局部打印)方法整理
2013/05/29 Javascript
表格奇偶行设置不同颜色的核心JS代码
2013/12/24 Javascript
JS 操作Array数组的方法及属性实例解析
2014/01/08 Javascript
使用GruntJS构建Web程序之合并压缩篇
2014/06/06 Javascript
推荐8款jQuery轻量级树形Tree插件
2014/11/12 Javascript
js实现上一页下一页的效果【附代码】
2016/03/10 Javascript
JavaScript常用代码书写规范的超全面总结
2016/09/11 Javascript
vue2.0+webpack环境的构造过程
2016/11/08 Javascript
javascript实现二叉树遍历的代码
2017/06/08 Javascript
原生JS+Canvas实现五子棋游戏
2020/05/28 Javascript
VUE路由动态加载实例代码讲解
2019/08/26 Javascript
javascript设计模式 ? 中介者模式原理与用法实例分析
2020/04/20 Javascript
浅谈Vuex的this.$store.commit和在Vue项目中引用公共方法
2020/07/24 Javascript
python访问sqlserver示例
2014/02/10 Python
Python yield与实现方法代码分析
2018/02/06 Python
用TensorFlow实现多类支持向量机的示例代码
2018/04/28 Python
python实现简单多人聊天室
2018/12/11 Python
Python面向对象程序设计构造函数和析构函数用法分析
2019/04/12 Python
Python queue队列原理与应用案例分析
2019/09/27 Python
Python 用三行代码提取PDF表格数据
2019/10/13 Python
PyQt5实现简单的计算器
2020/05/30 Python
python爬虫把url链接编码成gbk2312格式过程解析
2020/06/08 Python
终于搞懂了Keras中multiloss的对应关系介绍
2020/06/22 Python
viagogo英国票务平台:演唱会、体育比赛、戏剧门票
2017/03/24 全球购物
惠普香港官方商店:HP香港
2019/04/30 全球购物
可靠的数据流传输TCP
2016/03/15 面试题
什么是ESB?请介绍一下ESB?
2015/05/27 面试题
教师专业自荐信
2014/05/31 职场文书
小学优秀学生评语
2014/12/29 职场文书
海上钢琴师观后感
2015/06/03 职场文书
简历上的自我评价,该怎么写呢?
2019/06/13 职场文书
pnpm对npm及yarn降维打击详解
2022/08/05 Javascript