解决python大批量读写.doc文件的问题


Posted in Python onMay 08, 2018

前言:

java语言读写.doc的出现乱码问题:

大家都知道当我们利用java语言读写.doc文件时,无论是利用流的方式将.doc文件的内容输出到控制台(console),还是将其写到其他文件中,无论你采取何种编码格式(utf-8,gbk等)输出,你看到的内容99%都是乱码。

java语言读写.doc的出现乱码问题原因分析:

.doc文件是微软开发的用于办公的编辑文字的软件之一,如果说一篇word文档的字体格式采用的是utf-8,那么你采用utf-8格式读写该文档,应该能够正确输出汉字,但是一旦你的word文档里面的字体的尺寸改变,字体加上颜色属性,字体加上某种style时,那么本篇word文档的格式就变了,而不再是utf-8,因此采用utf-8格式输出99%都是乱码。

利用java语言读写.doc文档避免乱码的解决方案:(sun公司pk微软公司)

可以利用sun公司开发的poi包,该包提供修改微软办公软件的接口,利用poi包读写.doc文件,通常就不会产生乱码。如果看到这里你就大概认为,我终于可以利用java去处理.doc文件了,那么我想说的是,你开心的太早了。据我所知,截止到2017年12月22日,poi包的最新版本是3.1.7版,你也许对该版本没有什么概念,3.1.7版本的poi包只能处理微软2007版本的word,excel,ppt等,也就是说poi3.1.7版本的jar包不支持处理咱们电脑上顶配的word2016,因此可以说你可以放弃使用java读写word2016了。但是你也可以尝试用其他的接口去处理word,但是效率都不会比poi接口高,幸运的是,官网显示poi最新版本将在2017年12月份推出,但是截止到2017年12月22日,我还没有在官网看到此jar包。

正文:

python在处理文档的语言处理方面比java更胜一筹,毕竟python结合正则表达式在自然语言处理方面还是很强势的。最近在做深度学习的项目,需要解析并处理几百个数量级的.doc文件。众所周知,python读写.txt文档可以说一路畅通无阻,不管你中文是什么格式;python在读写.docx文档时,也比较畅通,最多你需要在命令行安装python-docx (0.8.6),就可以读写.docx文档了,具体读写方案,下述。

问题:python无法读取.doc文件(而不是.docx文件)

解决方案:利用python将大批.doc文件转化为.docx文件,再读写.docx文件

问题分析:python利用python-docx (0.8.6)库可以读取.docx文件或.txt文件,且一路畅通无阻,而对.doc文件本身python是无能为力的,那有很多同学就不服气,我手动把.doc文件的后缀名改为.docx或.txt不就解决问题了吗?答案是不能的,简单修改后缀名,那么文件就被你玩坏了,别说打不开,就是打开也是天书啊(乱码)。python无法操作.doc文件是他的先天不足,但是我们不要钻牛角尖一定要在互联网上找到一种源码直接读取.doc文件,一调用就好了,但是不幸的是,你可能在网上也找不到解决方案。正当我一筹莫展之时,我将.doc文档利用手动的方式“另存为”.docx文档,就能够成功打开转化后的.docx文档,于是我就尝试利用代码方式完成这个手动的“另存为”功能,问题得以解决。

直接上python代码(首先你需要先安装pypewin32库):

# -*- coding: utf-8 -*-:
import sys
import pickle
import re
import codecs
import string
import shutil
from win32com import client as wc
def doSaveAas(): # 想批处理文件,你就用for循环呗,我一次性处理了100多个文件,代码执行不超过2分钟,可以解决问题,目标文件路径可以自由改动,大家注意SaveAs方法中的参数,好多啊,别写错了
word = wc.Dispatch('Word.Application')
doc = word.Documents.Open(u'C:\\Users\\X\\PycharmProjects\\1\\大家好.doc')  # 目标路径下的文件
doc.SaveAs(u'C:\\Users\\X\\PycharmProjects\\1\\我是一枚小小的程序员X007.docx', 12, False, "", True, "", False, False, False, False) # 转化后路径下的文件 
doc.Close()
word.Quit()

转化为.docx文件后,在处理.docx文件,一路畅通无阻,网上很多解决方案,这里我就不详细说了,有问题,可以给我留言哟

以上这篇解决python大批量读写.doc文件的问题就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python批量导出导入MySQL用户的方法
Nov 15 Python
python随机生成指定长度密码的方法
Apr 04 Python
Using Django with GAE Python 后台抓取多个网站的页面全文
Feb 17 Python
python遍历目录的方法小结
Apr 28 Python
Python编程之Re模块下的函数介绍
Oct 28 Python
python做量化投资系列之比特币初始配置
Jan 23 Python
python合并同类型excel表格的方法
Apr 01 Python
Python使用win32com模块实现数据库表结构自动生成word表格的方法
Jul 17 Python
Flask框架web开发之零基础入门
Dec 10 Python
Python中super函数用法实例分析
Mar 18 Python
python实现月食效果实例代码
Jun 18 Python
python解包概念及实例
Feb 17 Python
python在每个字符后添加空格的实例
May 07 #Python
Pycharm在创建py文件时,自动添加文件头注释的实例
May 07 #Python
python 读取DICOM头文件的实例
May 07 #Python
解决Python requests库编码 socks5代理的问题
May 07 #Python
基于python requests库中的代理实例讲解
May 07 #Python
Python操作Oracle数据库的简单方法和封装类实例
May 07 #Python
Pandas实现数据类型转换的一些小技巧汇总
May 07 #Python
You might like
使用eAccelerator加密PHP程序
2008/10/03 PHP
利用PHP函数计算中英文字符串长度的方法
2014/11/11 PHP
PHP读取word文档的方法分析【基于COM组件】
2017/08/01 PHP
用js控制组织结构图可以任意拖拽到指定位置
2014/01/17 Javascript
JS设置获取cookies的方法
2014/01/26 Javascript
JavaScript中for-in遍历方式示例介绍
2014/02/11 Javascript
如何书写高质量jQuery代码(使用jquery性能问题)
2014/06/30 Javascript
js中数组排序sort方法的原理分析
2014/11/20 Javascript
推荐25个超炫的jQuery网格插件
2014/11/28 Javascript
分享一些常用的jQuery动画事件和动画函数
2015/11/27 Javascript
JavaScript中setTimeout和setInterval函数的传参及调用
2016/03/11 Javascript
require.js配合插件text.js实现最简单的单页应用程序
2016/07/12 Javascript
Vue 实用分页paging实例代码
2017/04/12 Javascript
基于jQuery实现手风琴菜单、层级菜单、置顶菜单、无缝滚动效果
2017/07/20 jQuery
JavaScript内置对象math,global功能与用法实例分析
2019/06/10 Javascript
一个手写的vue放大镜效果
2019/08/09 Javascript
vue实现路由不变的情况下,刷新页面操作示例
2020/02/02 Javascript
javascript 数组(list)添加/删除的实现
2020/12/17 Javascript
[53:10]完美世界DOTA2联赛决赛日 FTD vs GXR 第二场 11.08
2020/11/11 DOTA
Python实现删除当前目录下除当前脚本以外的文件和文件夹实例
2015/07/27 Python
Python3下错误AttributeError: ‘dict’ object has no attribute’iteritems‘的分析与解决
2017/07/06 Python
浅析python中numpy包中的argsort函数的使用
2018/08/30 Python
Python3实现腾讯云OCR识别
2018/11/27 Python
python:接口间数据传递与调用方法
2018/12/17 Python
Django框架HttpRequest对象用法实例分析
2019/11/01 Python
python requests模拟登陆github的实现方法
2019/12/26 Python
Python Selenium参数配置方法解析
2020/01/19 Python
PyQt5 界面显示无响应的实现
2020/03/26 Python
Pycharm修改python路径过程图解
2020/05/22 Python
世界上最大的家庭自动化公司:Smarthome
2017/12/20 全球购物
Sneaker Studio波兰:购买运动鞋
2018/04/28 全球购物
大一期末自我鉴定
2013/12/13 职场文书
毕业自荐信
2013/12/16 职场文书
小学红领巾中秋节广播稿
2014/01/13 职场文书
大学生旅游业创业计划书
2014/01/29 职场文书
vue3 自定义图片放大器效果的示例代码
2022/07/23 Vue.js