Ubuntu下使用python读取doc和docx文档的内容方法


Posted in Python onMay 08, 2018

读取docx文档

使用的包是python-docx

1. 安装python-docx包

sudo pip install python-docx

2. 使用python-docx包读取数据

#encoding:utf8 
import docx 
doc = docx.Document('test.docx') 
docText = '\n'.join([paragraph.text for paragraph in doc.paragraphs]) 
#print(docText)

python-docx这个包是不能处理doc文档的,要读取doc文档内容的话需要使用antiword这个工具。

读取doc文档

1. 到网站下载antiword。

2. 下载完毕之后解压,在解压得到的文件夹中依次运行make和make install命令。

3. 使用antiword读取doc文档内容

#encoding:utf8 
import subprocess 
word = 'test.doc' 
output = subprocess.check_output(['antiword',word]) 
print(output)

以上这篇Ubuntu下使用python读取doc和docx文档的内容方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
跟老齐学Python之dict()的操作方法
Sep 24 Python
Python2.x版本中基本的中文编码问题解决
Oct 12 Python
浅析Python中元祖、列表和字典的区别
Aug 17 Python
用Python读取几十万行文本数据
Dec 24 Python
Python3实现汉语转换为汉语拼音
Jul 08 Python
详解python实现交叉验证法与留出法
Jul 11 Python
python实现多线程端口扫描
Aug 31 Python
springboot配置文件抽离 git管理统 配置中心详解
Sep 02 Python
python代码实现TSNE降维数据可视化教程
Feb 28 Python
浅谈keras 模型用于预测时的注意事项
Jun 27 Python
python实现单机五子棋
Aug 28 Python
python使用re模块爬取豆瓣Top250电影
Oct 20 Python
儿童编程python入门
May 08 #Python
解决python大批量读写.doc文件的问题
May 08 #Python
python在每个字符后添加空格的实例
May 07 #Python
Pycharm在创建py文件时,自动添加文件头注释的实例
May 07 #Python
python 读取DICOM头文件的实例
May 07 #Python
解决Python requests库编码 socks5代理的问题
May 07 #Python
基于python requests库中的代理实例讲解
May 07 #Python
You might like
PHP4与PHP3中一个不兼容问题的解决方法
2006/10/09 PHP
php抓取https的内容的代码
2010/04/06 PHP
php连接Access数据库错误及解决方法
2013/06/20 PHP
PHP封装cURL工具类与应用示例
2019/07/01 PHP
用javascript获取地址栏参数
2006/12/22 Javascript
Javascript 圆角div的实现代码
2009/10/15 Javascript
Extjs 几个方法的讨论
2010/01/28 Javascript
jquery让返回的内容显示在特定div里(代码少而精悍)
2014/06/23 Javascript
JS实现浏览器状态栏显示时间的方法
2015/10/27 Javascript
JS使用正则表达式实现关键字替换加粗功能示例
2016/08/03 Javascript
JavaScript基础之AJAX简单的小demo
2017/01/29 Javascript
angularjs 获取默认选中的单选按钮的value方法
2018/02/28 Javascript
使用异步controller与jQuery实现卷帘式分页
2019/06/18 jQuery
javascript面向对象创建对象的方式小结
2019/07/29 Javascript
详解Vue-cli3.X使用px2rem遇到的问题
2019/08/09 Javascript
layui实现数据表格隐藏列的示例
2019/10/25 Javascript
[42:00]完美世界DOTA2联赛PWL S3 Phoenix vs INK ICE 第一场 12.13
2020/12/17 DOTA
python的urllib模块显示下载进度示例
2014/01/17 Python
python网络编程实例简析
2014/09/26 Python
解析Python中的二进制位运算符
2015/05/13 Python
python 基础教程之Map使用方法
2017/01/17 Python
python实现发送form-data数据的方法详解
2019/09/27 Python
python 如何去除字符串头尾的多余符号
2019/11/19 Python
python中Django文件上传方法详解
2020/08/05 Python
HTML5 3D旋转相册的实现示例
2019/12/03 HTML / CSS
Melijoe英国官网:法国儿童时尚网站
2016/11/18 全球购物
吉力贝官方网站:Jelly Belly
2019/03/11 全球购物
世界上最好的野生海鲜和有机食品:Vital Choice
2020/01/16 全球购物
食品行业求职人的自我评价
2014/01/19 职场文书
高级销售求职信
2014/02/21 职场文书
主办会计岗位职责
2014/03/13 职场文书
初一学生期末评语
2014/04/24 职场文书
原告代理词范文
2015/05/25 职场文书
《彼得与狼》教学反思
2016/02/20 职场文书
2016年“节能宣传周”活动总结
2016/04/05 职场文书
Python作用域和名称空间的详细介绍
2022/04/13 Python