Python爬虫将爬取的图片写入world文档的方法


Posted in Python onNovember 07, 2018

作为初学爬虫的我,无论是爬取文字还是图片,都可以游刃有余的做到,但是爬虫所爬取的内容往往不是单独的图片或者文字,于是我就想是否可以将图文保存至world文档里,一开始使用了如下方法保存图片:

with open('123.doc','wb')as file:
  file.write(response.content)
  file.close()

结果就是,world文档里出现了一堆乱码,此法不同,我就开始另寻他法,找了很久也没有找到,只找到了关于Python操作world的方法。

于是我就开始了新的思路:使用原来的方法将图片保存下来,再将图片添加到world文档里,最后将图片删除。这里使用的是python-dox库,代码如下:

import requests
from bs4 import BeautifulSoup
import os
import docx
from docx import Document
from docx.shared import Inches

url = 'https://www.qiushibaike.com/article/119757360'
html = requests.get(url).content
soup = BeautifulSoup(html,'html.parser')
wen = soup.find('div',{"class":"content"}).text
img = str(soup.find('div',{"class":"thumb"})).split('src="')[1].split('"/')[0]
tu = 'https:' + img
img_name = img.split('/')[-1]

#保存图片至本地
with open(img_name,'wb')as f:
 response = requests.get(tu).content
 f.write(response)
 f.close()

document = Document()
document.add_paragraph(wen)#向文档里添加文字
document.add_picture(img_name)#向文档里添加图片
document.save('tuwen.doc')#保存文档
os.remove(img_name)#删除保存在本地的图片

最后,还是实现了将图文保存在了world文档里,尽管方法有些笨……

以上这篇Python爬虫将爬取的图片写入world文档的方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python基类函数的重载与调用实例分析
Jan 12 Python
python中的内置函数max()和min()及mas()函数的高级用法
Mar 29 Python
python实现百度语音识别api
Apr 10 Python
Python中property函数用法实例分析
Jun 04 Python
python-pyinstaller、打包后获取路径的实例
Jun 10 Python
python爬虫刷访问量 2019 7月
Aug 01 Python
Django Aggregation聚合使用方法解析
Aug 01 Python
运用PyTorch动手搭建一个共享单车预测器
Aug 06 Python
jupyter notebook 增加kernel教程
Apr 10 Python
Python selenium使用autoIT上传附件过程详解
May 26 Python
pytorch快速搭建神经网络_Sequential操作
Jun 17 Python
python中的yield from语法快速学习
Nov 06 Python
使用python批量读取word文档并整理关键信息到excel表格的实例
Nov 07 #Python
使用PM2+nginx部署python项目的方法示例
Nov 07 #Python
python读取word文档,插入mysql数据库的示例代码
Nov 07 #Python
pandas.DataFrame删除/选取含有特定数值的行或列实例
Nov 07 #Python
python 返回列表中某个值的索引方法
Nov 07 #Python
pandas 根据列的值选取所有行的示例
Nov 07 #Python
Pandas过滤dataframe中包含特定字符串的数据方法
Nov 07 #Python
You might like
PHP5 的对象赋值机制介绍
2011/08/02 PHP
Laravel框架路由设置与使用示例
2018/06/12 PHP
javascript 必知必会之closure
2009/09/21 Javascript
js实现有时间限制消失的图片方法
2015/02/27 Javascript
JavaScript中的继承之类继承
2016/05/01 Javascript
超详细的JS弹出窗口代码大全
2020/04/18 Javascript
js基本算法:冒泡排序,二分查找的简单实例
2016/10/08 Javascript
JavaScript中双符号的运算详解
2017/03/12 Javascript
微信小程序中hidden不生效原因的解决办法
2017/04/26 Javascript
详解用webpack2搭建angular2的项目
2017/06/22 Javascript
实例教学如何写vue插件
2017/11/30 Javascript
AngularJS模态框模板ngDialog的使用详解
2018/05/11 Javascript
bootstrapTable+ajax加载数据 refresh更新数据
2018/08/31 Javascript
深入浅析Vue 中 ref 的使用
2019/04/29 Javascript
echarts多条折线图动态分层的实现方法
2019/05/24 Javascript
使用jQuery实现掷骰子游戏
2019/10/24 jQuery
node.js中事件触发器events的使用方法实例分析
2019/11/23 Javascript
ant design vue导航菜单与路由配置操作
2020/10/28 Javascript
Python不规范的日期字符串处理类
2014/06/10 Python
安装ElasticSearch搜索工具并配置Python驱动的方法
2015/12/22 Python
python实现搜索文本文件内容脚本
2018/06/22 Python
python traceback捕获并打印异常的方法
2018/08/31 Python
python2.7使用plotly绘制本地散点图和折线图
2019/04/02 Python
如何在Cloud Studio上执行Python代码?
2019/08/09 Python
浅谈Python线程的同步互斥与死锁
2020/03/22 Python
Python按照list dict key进行排序过程解析
2020/04/04 Python
如何使用python记录室友的抖音在线时间
2020/06/29 Python
python操作ini类型配置文件的实例教程
2020/10/30 Python
Lookfantastic葡萄牙官方网站:欧洲第一大化妆品零售商
2018/03/17 全球购物
OLEDBConnection和SQLConnection有什么区别
2013/05/31 面试题
七年级地理教学反思
2014/01/26 职场文书
餐饮周年庆活动方案
2014/08/14 职场文书
2014年办公室个人工作总结
2014/11/12 职场文书
故意杀人案辩护词
2015/05/21 职场文书
Redis延迟队列和分布式延迟队列的简答实现
2021/05/13 Redis
SQL Server #{}可以防止SQL注入
2022/05/11 SQL Server