Ubuntu下使用python读取doc和docx文档的内容方法


Posted in Python onMay 08, 2018

读取docx文档

使用的包是python-docx

1. 安装python-docx包

sudo pip install python-docx

2. 使用python-docx包读取数据

#encoding:utf8 
import docx 
doc = docx.Document('test.docx') 
docText = '\n'.join([paragraph.text for paragraph in doc.paragraphs]) 
#print(docText)

python-docx这个包是不能处理doc文档的,要读取doc文档内容的话需要使用antiword这个工具。

读取doc文档

1. 到网站下载antiword。

2. 下载完毕之后解压,在解压得到的文件夹中依次运行make和make install命令。

3. 使用antiword读取doc文档内容

#encoding:utf8 
import subprocess 
word = 'test.doc' 
output = subprocess.check_output(['antiword',word]) 
print(output)

以上这篇Ubuntu下使用python读取doc和docx文档的内容方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python发送arp欺骗攻击代码分析
Jan 16 Python
在SAE上部署Python的Django框架的一些问题汇总
May 30 Python
星球大战与Python之间的那些事
Jan 07 Python
Python保存MongoDB上的文件到本地的方法
Mar 16 Python
Python基于TCP实现会聊天的小机器人功能示例
Apr 09 Python
python在TXT文件中按照某一字符串取出该字符串所在的行方法
Dec 10 Python
python暴力解压rar加密文件过程详解
Jul 05 Python
seek引发的python文件读写的问题及解决
Jul 26 Python
Python 中使用 PyMySQL模块操作数据库的方法
Nov 10 Python
python regex库实例用法总结
Jan 03 Python
python3实现无权最短路径的方法
May 12 Python
Python函数中的不定长参数相关知识总结
Jun 24 Python
儿童编程python入门
May 08 #Python
解决python大批量读写.doc文件的问题
May 08 #Python
python在每个字符后添加空格的实例
May 07 #Python
Pycharm在创建py文件时,自动添加文件头注释的实例
May 07 #Python
python 读取DICOM头文件的实例
May 07 #Python
解决Python requests库编码 socks5代理的问题
May 07 #Python
基于python requests库中的代理实例讲解
May 07 #Python
You might like
WHOIS类的修改版
2006/10/09 PHP
php xml 入门学习资料
2011/01/01 PHP
php强制运行广告的方法
2014/12/01 PHP
PHP中使用imagick实现把PDF转成图片
2015/01/26 PHP
php 输出缓冲 Output Control用法实例详解
2020/03/03 PHP
为javascript添加String.Format方法
2020/08/11 Javascript
javascript限制文本框只允许输入数字(曾经与现在的方法对比)
2013/01/18 Javascript
JS字符串处理实例代码
2013/08/05 Javascript
jQuery中bind()方法用法实例
2015/01/19 Javascript
浅谈JavaScript超时调用和间歇调用
2015/08/30 Javascript
基于javascript实现简单的抽奖系统
2020/04/15 Javascript
jquery 判断selection range 是否在容器中的简单实例
2016/08/02 Javascript
浅谈EasyUI常用控件的禁用方法
2016/11/09 Javascript
谈谈JS中常遇到的浏览器兼容问题和解决方法
2016/12/17 Javascript
jQuery实现的手动拖动控制进度条效果示例【测试可用】
2018/04/18 jQuery
判断文字超过2行添加展开按钮,未超过则不显示,溢出部分显示省略号
2019/04/28 Javascript
微信小程序实现原生步骤条
2019/07/25 Javascript
使用 Vue 实现一个虚拟列表的方法
2019/08/20 Javascript
vue实现在线预览pdf文件和下载(pdf.js)
2019/11/26 Javascript
element表格翻页第2页从1开始编号(后端从0开始分页)
2019/12/10 Javascript
[00:55]2015国际邀请赛中国区预选赛5月23日——28日约战上海
2015/05/25 DOTA
Python def函数的定义、使用及参数传递实现代码
2014/08/10 Python
基于Tensorflow使用CPU而不用GPU问题的解决
2020/02/07 Python
django实现将后台model对象转换成json对象并传递给前端jquery
2020/03/16 Python
Python通过getattr函数获取对象的属性值
2020/10/16 Python
用python批量下载apk
2020/12/29 Python
HTML5 Canvas画线技巧——实现绘制一个像素宽的细线
2013/08/02 HTML / CSS
英国电视和家用电器购物网站:rlrdistribution.co.uk
2018/11/20 全球购物
世界顶级户外运动品牌折扣网站:LeftLane Sports
2019/06/12 全球购物
白俄罗斯女装和针织品网上商店:Presli.by
2019/10/13 全球购物
化工专业个人的求职信范文
2013/11/28 职场文书
建筑工程毕业生自我鉴定
2014/01/14 职场文书
上班离岗检讨书
2014/09/10 职场文书
煤矿安全保证书
2015/02/27 职场文书
嘉年华活动新闻稿
2015/07/17 职场文书
JS的深浅复制详细
2021/10/16 Javascript