Python批量提取PDF文件中文本的脚本


Posted in Python onMarch 14, 2018

本文实例为大家分享了Python批量提取PDF文件中文本的具体代码,供大家参考,具体内容如下

首先需要执行命令pip install pdfminer3k来安装处理PDF文件的扩展库。

import os
import sys
import time

pdfs = (pdfs for pdfs in os.listdir('.') if pdfs.endswith('.pdf'))

for pdf1 in pdfs:
 pdf = pdf1.replace(' ', '_').replace('-', '_').replace('&', '_')
 os.rename(pdf1, pdf)
 print('='*30)
 print(pdf)
 
 txt = pdf[:-4] + '.txt'
 exe = '"' + sys.executable + '" "'
 pdf2txt = os.path.dirname(sys.executable)
 pdf2txt = pdf2txt + '\\scripts\\pdf2txt.py" -o '
 try:
 #调用命令行工具pdf2txt.py进行转换
 #如果pdf加密过可以改写下面的代码
 #在-o前面使用-P来指定密码
 cmd = exe + pdf2txt + txt + ' ' + pdf
 os.popen(cmd)
 #转换需要一定时间,一般小文件2秒钟足够了
 time.sleep(2)
 #输出转换后的文本,前200个字符
 with open(txt, encoding='utf8') as fp:
  print(fp.read(200))
 except:
 pass

来源:python小屋

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
在Python的循环体中使用else语句的方法
Mar 30 Python
Python 3中的yield from语法详解
Jan 18 Python
Python将字符串常量转化为变量方法总结
Mar 17 Python
django框架模板中定义变量(set variable in django template)的方法分析
Jun 24 Python
Python 装饰器@,对函数进行功能扩展操作示例【开闭原则】
Oct 17 Python
python logging添加filter教程
Dec 24 Python
python scrapy重复执行实现代码详解
Dec 28 Python
python轮询机制控制led实例
May 03 Python
详解Python+Selenium+ChromeDriver的配置和问题解决
Jan 19 Python
python实现批量移动文件
Apr 05 Python
如何在pycharm中快捷安装pip命令(如pygame)
May 31 Python
解决IDEA翻译插件Translation报错更新TTK失败不能使用
Apr 24 Python
深入理解Django的中间件middleware
Mar 14 #Python
python批量设置多个Excel文件页眉页脚的脚本
Mar 14 #Python
浅谈python正则的常用方法 覆盖范围70%以上
Mar 14 #Python
Python使用matplotlib绘制多个图形单独显示的方法示例
Mar 14 #Python
Python使用matplotlib绘制余弦的散点图示例
Mar 14 #Python
使用Python从零开始撸一个区块链
Mar 14 #Python
Python使用matplotlib绘图无法显示中文问题的解决方法
Mar 14 #Python
You might like
thinkphp验证码显示不出来的解决方法
2014/03/29 PHP
PHP中new static() 和 new self() 的区别介绍
2015/01/09 PHP
基于CakePHP实现的简单博客系统实例
2015/06/28 PHP
PHP多进程简单实例小结
2019/11/09 PHP
Laravel 验证码认证学习记录小结
2019/12/20 PHP
PHP使用PhpSpreadsheet操作Excel实例详解
2020/03/26 PHP
JavaScript Event学习第二章 Event浏览器兼容性
2010/02/07 Javascript
JS兼容浏览器的导出Excel(CSV)文件的方法
2014/05/03 Javascript
5个数组Array方法: indexOf、filter、forEach、map、reduce使用实例
2015/01/29 Javascript
js实现瀑布流的三种方式比较
2020/06/28 Javascript
深入浅析Extjs中store分组功能的使用方法
2016/04/20 Javascript
深入理解(function(){... })();
2016/08/16 Javascript
利用Jquery队列实现根据输入数量显示的动画
2016/09/01 Javascript
遍历json 对象的属性并且动态添加属性的实现
2016/12/02 Javascript
JS中的JSON对象的定义和取值实现代码
2018/05/09 Javascript
JavaScript作用域链实例详解
2019/01/21 Javascript
微信小程序实现的动态设置导航栏标题功能示例
2019/01/31 Javascript
Layui实现数据表格默认全部显示(不要分页)
2019/10/26 Javascript
前端开发之便利店收银系统代码
2019/12/27 Javascript
浅谈Python中的数据类型
2015/05/05 Python
使用Python的turtle模块画图的方法
2017/11/15 Python
对python中的float除法和整除法的实例详解
2019/07/20 Python
python 通过邮件控制实现远程控制电脑操作
2020/03/16 Python
详解Python中Pyyaml模块的使用
2020/10/08 Python
纯CSS3实现8组超炫酷鼠标滑过图片动画
2016/03/16 HTML / CSS
AmazeUI 输入框组的示例代码
2020/08/14 HTML / CSS
Spartoo英国:欧洲最大的网上鞋店
2016/09/13 全球购物
中专自我鉴定
2014/02/05 职场文书
《陈毅探母》教学反思
2014/05/01 职场文书
大学生交通专业求职信
2014/09/01 职场文书
党员示范岗材料
2014/12/19 职场文书
考试作弊检讨书
2015/01/27 职场文书
幼儿园个人师德总结
2015/02/06 职场文书
2019年中学生的思想品德评语集锦
2019/12/19 职场文书
Python机器学习实战之k-近邻算法的实现
2021/11/27 Python
MySQL的存储过程和相关函数
2022/04/26 MySQL