python爬取”顶点小说网“《纯阳剑尊》的示例代码


Posted in Python onOctober 16, 2020

爬取”顶点小说网“《纯阳剑尊》

代码

import requests
from bs4 import BeautifulSoup
# 反爬
headers = {
  'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, \
  like Gecko) Chrome/70.0.3538.102 Safari/537.36'
}

# 获得请求
def open_url(url):
  response = requests.get(url, headers=headers)
  response.encoding = response.apparent_encoding
  html = response.text
  return html

# 提取标题
def get_title(url):
  soup = BeautifulSoup(url, 'lxml')
  title_tag = soup.find('dd')
  title = '\n' + title_tag.h1.get_text() + '\n'
  return title

# 提取文本
def get_texts(url):
  soup2 = BeautifulSoup(url, 'lxml')
  text_tags = soup2.find_all('dd', id="contents")
  return text_tags

# 保存标题
def save_title(filename, title):
  with open(filename, 'a+', encoding='utf-8') as file:
    file.write(title)

# 保存文本
def save_text(filename, text):
  with open(filename, 'a+', encoding='utf-8') as file:
    file.write(text)

# 主程序函数
def main():
  num = input('《纯阳剑尊》你想要下载第几章?(1-802)')
  num = int(num)
  number = 8184027 + num
  url = 'https://www.23us.so/files/article/html/15/15905/' + str(number) + '.html'
  filename = '纯阳剑尊.txt'
  r = open_url(url)
  title = get_title(r)
  tags = get_texts(r)
  save_title(filename, title)
  for text_tag in tags:
    text = text_tag.get_text() + '\n'
    save_text(filename, text)
  print('第{}章已经下载完成!'.format(num))

if __name__ == '__main__':
  main()

爬取结果:

python爬取”顶点小说网“《纯阳剑尊》的示例代码

python爬取”顶点小说网“《纯阳剑尊》的示例代码

以上就是python爬取”顶点小说网“《纯阳剑尊》的示例代码的详细内容,更多关于python 爬取顶点小说网的资料请关注三水点靠木其它相关文章!

Python 相关文章推荐
Using Django with GAE Python 后台抓取多个网站的页面全文
Feb 17 Python
Django实现的自定义访问日志模块示例
Jun 23 Python
AI人工智能 Python实现人机对话
Nov 13 Python
详解Python3网络爬虫(二):利用urllib.urlopen向有道翻译发送数据获得翻译结果
May 07 Python
Django ImageFiled上传照片并显示的方法
Jul 28 Python
Python FFT合成波形的实例
Dec 04 Python
Python中的Cookie模块如何使用
Jun 04 Python
python+selenium 简易地疫情信息自动打卡签到功能的实现代码
Aug 22 Python
Python标准库之typing的用法(类型标注)
Jun 02 Python
opencv读取视频并保存图像的方法
Jun 04 Python
python编程项目中线上问题排查与解决
Nov 01 Python
Python使用内置函数setattr设置对象的属性值
Oct 16 #Python
python pymysql库的常用操作
Oct 16 #Python
Python基于callable函数检测对象是否可被调用
Oct 16 #Python
python collections模块的使用
Oct 16 #Python
python 如何使用find和find_all爬虫、找文本的实现
Oct 16 #Python
Django实现随机图形验证码的示例
Oct 15 #Python
如何使用Python自动生成报表并以邮件发送
Oct 15 #Python
You might like
discuz安全提问算法
2007/06/06 PHP
php下使用strpos需要注意 === 运算符
2010/07/17 PHP
解决PHP上传非标准格式的图片pjpeg失败的方法
2017/03/12 PHP
php生成无限栏目树
2017/03/16 PHP
jQuery 各种浏览器下获得日期区别
2008/12/22 Javascript
javascript 写类方式之九
2009/07/05 Javascript
jQuery 连续列表实现代码
2009/12/21 Javascript
使用jQuery fancybox插件打造一个实用的数据传输模态弹出窗体
2013/01/15 Javascript
JavaScript中数据结构与算法(一):栈
2015/06/19 Javascript
apply和call方法定义及apply和call方法的区别
2015/11/15 Javascript
Bootstrap CSS使用方法
2016/12/23 Javascript
JavaScript中Math对象的方法介绍
2017/01/05 Javascript
layer弹出层中H5播放器全屏出错的解决方法
2017/02/21 Javascript
面试常见的js算法题
2017/03/23 Javascript
微信小程序开发之麦克风动画 帧动画 放大 淡出
2017/04/18 Javascript
详解vue slot插槽的使用方法
2017/06/13 Javascript
优雅地使用loading(推荐)
2019/04/20 Javascript
原生js添加一个或多个类名的方法分析
2019/07/30 Javascript
layui table 表格模板按钮的实例代码
2019/09/21 Javascript
基于VUE的v-charts的曲线显示功能
2019/10/01 Javascript
微信小程序实现多图上传
2020/06/19 Javascript
vue-video-player实现实时视频播放方式(监控设备-rtmp流)
2020/08/10 Javascript
ajax jquery实现页面某一个div的刷新效果
2021/03/04 jQuery
Python比较文件夹比另一同名文件夹多出的文件并复制出来的方法
2015/03/05 Python
使用Python制作获取网站目录的图形化程序
2015/05/04 Python
Django返回json数据用法示例
2016/09/18 Python
Python实现简单http服务器
2018/04/12 Python
在Python中关于使用os模块遍历目录的实现方法
2019/01/03 Python
python增加图像对比度的方法
2019/07/12 Python
使用Python的datetime库处理时间(RPA流程)
2019/11/24 Python
python dumps和loads区别详解
2020/02/04 Python
python 获取字典特定值对应的键的实现
2020/09/29 Python
用Python实现定时备份Mongodb数据并上传到FTP服务器
2021/01/27 Python
canvas烟花特效锦集
2018/01/17 HTML / CSS
二年级小学生评语
2014/04/21 职场文书
Python-OpenCV实现图像缺陷检测的实例
2021/06/11 Python