Python爬虫将爬取的图片写入world文档的方法


Posted in Python onNovember 07, 2018

作为初学爬虫的我,无论是爬取文字还是图片,都可以游刃有余的做到,但是爬虫所爬取的内容往往不是单独的图片或者文字,于是我就想是否可以将图文保存至world文档里,一开始使用了如下方法保存图片:

with open('123.doc','wb')as file:
  file.write(response.content)
  file.close()

结果就是,world文档里出现了一堆乱码,此法不同,我就开始另寻他法,找了很久也没有找到,只找到了关于Python操作world的方法。

于是我就开始了新的思路:使用原来的方法将图片保存下来,再将图片添加到world文档里,最后将图片删除。这里使用的是python-dox库,代码如下:

import requests
from bs4 import BeautifulSoup
import os
import docx
from docx import Document
from docx.shared import Inches

url = 'https://www.qiushibaike.com/article/119757360'
html = requests.get(url).content
soup = BeautifulSoup(html,'html.parser')
wen = soup.find('div',{"class":"content"}).text
img = str(soup.find('div',{"class":"thumb"})).split('src="')[1].split('"/')[0]
tu = 'https:' + img
img_name = img.split('/')[-1]

#保存图片至本地
with open(img_name,'wb')as f:
 response = requests.get(tu).content
 f.write(response)
 f.close()

document = Document()
document.add_paragraph(wen)#向文档里添加文字
document.add_picture(img_name)#向文档里添加图片
document.save('tuwen.doc')#保存文档
os.remove(img_name)#删除保存在本地的图片

最后,还是实现了将图文保存在了world文档里,尽管方法有些笨……

以上这篇Python爬虫将爬取的图片写入world文档的方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python3安装pip3(install pip3 for python 3.x)
Apr 03 Python
Python subprocess模块功能与常见用法实例详解
Jun 28 Python
Python实用技巧之利用元组代替字典并为元组元素命名
Jul 11 Python
python实现随机漫步方法和原理
Jun 10 Python
PyCharm 创建指定版本的 Django(超详图解教程)
Jun 18 Python
jupyter notebook 添加kernel permission denied的操作
Apr 21 Python
python3 sleep 延时秒 毫秒实例
May 04 Python
PyTorch中model.zero_grad()和optimizer.zero_grad()用法
Jun 24 Python
pandas按条件筛选数据的实现
Feb 20 Python
Pytest中skip skipif跳过用例详解
Jun 30 Python
python_tkinter弹出对话框创建
Mar 20 Python
Python基本知识点总结
Apr 07 Python
使用python批量读取word文档并整理关键信息到excel表格的实例
Nov 07 #Python
使用PM2+nginx部署python项目的方法示例
Nov 07 #Python
python读取word文档,插入mysql数据库的示例代码
Nov 07 #Python
pandas.DataFrame删除/选取含有特定数值的行或列实例
Nov 07 #Python
python 返回列表中某个值的索引方法
Nov 07 #Python
pandas 根据列的值选取所有行的示例
Nov 07 #Python
Pandas过滤dataframe中包含特定字符串的数据方法
Nov 07 #Python
You might like
php的4种常用运行方式详解
2016/12/22 PHP
Jquery 基础学习笔记
2009/05/29 Javascript
更快的异步执行(setTimeout多浏览器)
2014/08/12 Javascript
jquery实现多条件筛选特效代码分享
2015/08/28 Javascript
浅析创建javascript对象的方法
2016/05/13 Javascript
jQuery progressbar通过Ajax请求实现后台进度实时功能
2016/10/11 Javascript
js格式化时间的简单实例
2016/11/27 Javascript
ajax实现加载页面、删除、查看详细信息 bootstrap美化页面!
2017/03/14 Javascript
js删除数组中的元素delete和splice的区别详解
2018/02/03 Javascript
Vue2.0点击切换类名改变样式的方法
2018/08/22 Javascript
原生js实现公告滚动效果
2021/01/10 Javascript
vue-router 前端路由之路由传值的方式详解
2019/04/30 Javascript
vue项目打包后提交到git上为什么没有dist这个文件的解决方法
2020/09/16 Javascript
使用Python编写提取日志中的中文的脚本的方法
2015/04/30 Python
Python面向对象编程中关于类和方法的学习笔记
2016/06/30 Python
python中计算一个列表中连续相同的元素个数方法
2018/06/29 Python
Python实现iOS自动化打包详解步骤
2018/10/03 Python
python看某个模块的版本方法
2018/10/16 Python
python采集微信公众号文章
2018/12/20 Python
python网络编程 使用UDP、TCP协议收发信息详解
2019/08/29 Python
python之pymysql模块简单应用示例代码
2019/12/16 Python
基于python实现获取网页图片过程解析
2020/05/11 Python
解决PyCharm IDE环境下,执行unittest不生成测试报告的问题
2020/09/03 Python
基于css3 animate制作绚丽的动画效果
2015/11/24 HTML / CSS
美国宠物用品网站:Value Pet Supplies
2018/03/17 全球购物
事业单位辞职信范文
2014/01/19 职场文书
施工材料员岗位职责
2014/02/12 职场文书
村安全生产责任书
2014/08/25 职场文书
群众路线领导干部个人对照检查材料(集锦)
2014/09/23 职场文书
经典励志格言:每日一句,让你每天充满能量
2019/08/16 职场文书
七年级作文之雪景
2019/11/18 职场文书
Python 数据科学 Matplotlib图库详解
2021/07/07 Python
postgreSQL数据库基础知识介绍
2022/04/12 PostgreSQL
Echarts如何重新渲染实例详解
2022/05/30 Javascript
详解flex:1什么意思
2022/07/23 HTML / CSS
MySQL中的 inner join 和 left join的区别解析(小结果集驱动大结果集)
2023/05/08 MySQL