Ubuntu下使用python读取doc和docx文档的内容方法


Posted in Python onMay 08, 2018

读取docx文档

使用的包是python-docx

1. 安装python-docx包

sudo pip install python-docx

2. 使用python-docx包读取数据

#encoding:utf8 
import docx 
doc = docx.Document('test.docx') 
docText = '\n'.join([paragraph.text for paragraph in doc.paragraphs]) 
#print(docText)

python-docx这个包是不能处理doc文档的,要读取doc文档内容的话需要使用antiword这个工具。

读取doc文档

1. 到网站下载antiword。

2. 下载完毕之后解压,在解压得到的文件夹中依次运行make和make install命令。

3. 使用antiword读取doc文档内容

#encoding:utf8 
import subprocess 
word = 'test.doc' 
output = subprocess.check_output(['antiword',word]) 
print(output)

以上这篇Ubuntu下使用python读取doc和docx文档的内容方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python 爬虫模拟登陆知乎
Sep 23 Python
python中实现精确的浮点数运算详解
Nov 02 Python
浅谈python配置与使用OpenCV踩的一些坑
Apr 02 Python
学习python的前途 python挣钱
Feb 27 Python
django基础学习之send_mail功能
Aug 07 Python
python实现单链表的方法示例
Sep 03 Python
Python3.7 读取 mp3 音频文件生成波形图效果
Nov 05 Python
使用TensorFlow搭建一个全连接神经网络教程
Feb 06 Python
Keras预训练的ImageNet模型实现分类操作
Jul 07 Python
通过实例解析python subprocess模块原理及用法
Oct 10 Python
教你用python控制安卓手机
May 13 Python
如何在向量化NumPy数组上进行移动窗口
May 18 Python
儿童编程python入门
May 08 #Python
解决python大批量读写.doc文件的问题
May 08 #Python
python在每个字符后添加空格的实例
May 07 #Python
Pycharm在创建py文件时,自动添加文件头注释的实例
May 07 #Python
python 读取DICOM头文件的实例
May 07 #Python
解决Python requests库编码 socks5代理的问题
May 07 #Python
基于python requests库中的代理实例讲解
May 07 #Python
You might like
用PHP+java实现自动新闻滚动窗口
2006/10/09 PHP
变量在 PHP7 内部的实现(一)
2015/12/21 PHP
node.js 一个简单的页面输出实现代码
2012/03/07 Javascript
Javascript引用指针使用介绍
2012/11/07 Javascript
使用Object.defineProperty实现简单的js双向绑定
2016/04/15 Javascript
详解原生JavaScript实现jQuery中AJAX处理的方法
2016/05/10 Javascript
基于JS代码实现图片在页面中旋转效果
2016/06/16 Javascript
EditPlus 正则表达式 实战(3)
2016/12/15 Javascript
BootStrop前端框架入门教程详解
2016/12/25 Javascript
Node.js 使用递归实现遍历文件夹中所有文件
2017/09/18 Javascript
electron中使用bootstrap的示例代码
2018/11/06 Javascript
记录一次完整的react hooks实践
2019/03/11 Javascript
微信小程序结合Storage实现搜索历史效果
2019/05/18 Javascript
小程序封装路由文件和路由方法(5种全解析)
2019/05/26 Javascript
了解在JavaScript中将值转换为字符串的5种方法
2019/06/06 Javascript
JS操作Fckeditor的一些常用方法(获取、插入等)
2020/02/19 Javascript
python求解水仙花数的方法
2015/05/11 Python
python进阶_浅谈面向对象进阶
2017/08/17 Python
Python机器学习之K-Means聚类实现详解
2018/02/22 Python
Selenium的使用详解
2018/10/19 Python
pycharm 解除默认unittest模式的方法
2018/11/30 Python
python实现Flappy Bird源码
2018/12/24 Python
DRF跨域后端解决之django-cors-headers的使用
2019/01/27 Python
python实现把两个二维array叠加成三维array示例
2019/11/29 Python
Django-xadmin+rule对象级权限的实现方式
2020/03/30 Python
Python填充任意颜色,不同算法时间差异分析说明
2020/05/16 Python
scrapy处理python爬虫调度详解
2020/11/23 Python
《七颗钻石》教学反思
2014/02/28 职场文书
解除劳动合同协议书
2014/04/14 职场文书
中国梦演讲稿教师篇
2014/04/23 职场文书
团支部建设方案
2014/05/02 职场文书
理想演讲稿范文
2014/05/21 职场文书
酒店管理毕业生自荐信
2014/05/25 职场文书
婚庆答谢词
2015/01/04 职场文书
公司财务部岗位职责
2015/04/14 职场文书
公司车辆管理制度
2015/08/04 职场文书