Python批量提取PDF文件中文本的脚本


Posted in Python onMarch 14, 2018

本文实例为大家分享了Python批量提取PDF文件中文本的具体代码,供大家参考,具体内容如下

首先需要执行命令pip install pdfminer3k来安装处理PDF文件的扩展库。

import os
import sys
import time

pdfs = (pdfs for pdfs in os.listdir('.') if pdfs.endswith('.pdf'))

for pdf1 in pdfs:
 pdf = pdf1.replace(' ', '_').replace('-', '_').replace('&', '_')
 os.rename(pdf1, pdf)
 print('='*30)
 print(pdf)
 
 txt = pdf[:-4] + '.txt'
 exe = '"' + sys.executable + '" "'
 pdf2txt = os.path.dirname(sys.executable)
 pdf2txt = pdf2txt + '\\scripts\\pdf2txt.py" -o '
 try:
 #调用命令行工具pdf2txt.py进行转换
 #如果pdf加密过可以改写下面的代码
 #在-o前面使用-P来指定密码
 cmd = exe + pdf2txt + txt + ' ' + pdf
 os.popen(cmd)
 #转换需要一定时间,一般小文件2秒钟足够了
 time.sleep(2)
 #输出转换后的文本,前200个字符
 with open(txt, encoding='utf8') as fp:
  print(fp.read(200))
 except:
 pass

来源:python小屋

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python通过字典dict判断指定键值是否存在的方法
Mar 21 Python
python中split方法用法分析
Apr 17 Python
详解JavaScript编程中的window与window.screen对象
Oct 26 Python
python 实时遍历日志文件
Apr 12 Python
Win7下搭建python开发环境图文教程(安装Python、pip、解释器)
May 17 Python
打包发布Python模块的方法详解
Sep 18 Python
Python设计模式之建造者模式实例详解
Jan 17 Python
Django 路由层URLconf的实现
Dec 30 Python
python使用numpy实现直方图反向投影示例
Jan 17 Python
自定义实现 PyQt5 下拉复选框 ComboCheckBox的完整代码
Mar 30 Python
Python数据库封装实现代码示例解析
Sep 05 Python
分享一个python的aes加密代码
Dec 22 Python
深入理解Django的中间件middleware
Mar 14 #Python
python批量设置多个Excel文件页眉页脚的脚本
Mar 14 #Python
浅谈python正则的常用方法 覆盖范围70%以上
Mar 14 #Python
Python使用matplotlib绘制多个图形单独显示的方法示例
Mar 14 #Python
Python使用matplotlib绘制余弦的散点图示例
Mar 14 #Python
使用Python从零开始撸一个区块链
Mar 14 #Python
Python使用matplotlib绘图无法显示中文问题的解决方法
Mar 14 #Python
You might like
《APMServ 5.1.2》使用图解
2006/10/23 PHP
php网页后退不再出现过期
2007/03/08 PHP
php防注入,表单提交值转义的实现详解
2013/06/10 PHP
深入apache配置文件httpd.conf的部分参数说明
2013/06/28 PHP
PHP扩展Memcache分布式部署方案
2015/12/06 PHP
在Javascript中为String对象添加trim,ltrim,rtrim方法
2006/09/22 Javascript
Sample script that displays all of the users in a given SQL Server DB
2007/06/16 Javascript
用jQuery实现检测浏览器及版本的脚本代码
2008/01/22 Javascript
javascript天然的迭代器
2010/10/29 Javascript
浅析JavaScript中的常用算法与函数
2013/11/21 Javascript
jquery将一个表单序列化为一个对象的方法
2013/12/02 Javascript
JS实现简单的键盘打字的效果
2015/04/24 Javascript
简单实现限制uploadify上传个数
2015/11/16 Javascript
js运动事件函数详解
2016/10/21 Javascript
微信小程序 devtool隐藏的秘密
2017/01/21 Javascript
angular实现表单验证及提交功能
2017/02/01 Javascript
JavaScript队列的应用实例详解【经典数据结构】
2017/04/12 Javascript
详解webpack解惑:require的五种用法
2017/06/09 Javascript
浅谈Vue SPA 首屏加载优化实践
2017/12/15 Javascript
vue+element-ui+ajax实现一个表格的实例
2018/03/09 Javascript
jquery操作checkbox的常用方法总结【附测试源码下载】
2019/06/10 jQuery
vue页面更新patch的实现示例
2020/03/25 Javascript
在Vue里如何把网页的数据导出到Excel的方法
2020/09/30 Javascript
对pandas里的loc并列条件索引的实例讲解
2018/11/15 Python
python实现动态数组的示例代码
2019/07/15 Python
python scrapy爬虫代码及填坑
2019/08/12 Python
python读取指定字节长度的文本方法
2019/08/27 Python
python中bytes和str类型的区别
2019/10/21 Python
Html5 web本地存储实例详解
2016/07/28 HTML / CSS
美国最大的购物网站:Amazon.com(亚马逊美国)
2020/05/23 全球购物
办公室秘书岗位职责范本
2014/02/11 职场文书
社区党建工作汇报材料
2014/10/27 职场文书
2015年党员创先争优公开承诺书
2015/04/27 职场文书
用python删除文件夹中的重复图片(图片去重)
2021/05/12 Python
详解MySQL中的主键与事务
2021/05/27 MySQL
MySQL中CURRENT_TIMESTAMP的使用方式
2021/11/27 MySQL