python爬取”顶点小说网“《纯阳剑尊》的示例代码


Posted in Python onOctober 16, 2020

爬取”顶点小说网“《纯阳剑尊》

代码

import requests
from bs4 import BeautifulSoup
# 反爬
headers = {
  'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, \
  like Gecko) Chrome/70.0.3538.102 Safari/537.36'
}

# 获得请求
def open_url(url):
  response = requests.get(url, headers=headers)
  response.encoding = response.apparent_encoding
  html = response.text
  return html

# 提取标题
def get_title(url):
  soup = BeautifulSoup(url, 'lxml')
  title_tag = soup.find('dd')
  title = '\n' + title_tag.h1.get_text() + '\n'
  return title

# 提取文本
def get_texts(url):
  soup2 = BeautifulSoup(url, 'lxml')
  text_tags = soup2.find_all('dd', id="contents")
  return text_tags

# 保存标题
def save_title(filename, title):
  with open(filename, 'a+', encoding='utf-8') as file:
    file.write(title)

# 保存文本
def save_text(filename, text):
  with open(filename, 'a+', encoding='utf-8') as file:
    file.write(text)

# 主程序函数
def main():
  num = input('《纯阳剑尊》你想要下载第几章?(1-802)')
  num = int(num)
  number = 8184027 + num
  url = 'https://www.23us.so/files/article/html/15/15905/' + str(number) + '.html'
  filename = '纯阳剑尊.txt'
  r = open_url(url)
  title = get_title(r)
  tags = get_texts(r)
  save_title(filename, title)
  for text_tag in tags:
    text = text_tag.get_text() + '\n'
    save_text(filename, text)
  print('第{}章已经下载完成!'.format(num))

if __name__ == '__main__':
  main()

爬取结果:

python爬取”顶点小说网“《纯阳剑尊》的示例代码

python爬取”顶点小说网“《纯阳剑尊》的示例代码

以上就是python爬取”顶点小说网“《纯阳剑尊》的示例代码的详细内容,更多关于python 爬取顶点小说网的资料请关注三水点靠木其它相关文章!

Python 相关文章推荐
Python3使用requests发闪存的方法
May 11 Python
基于Python和Scikit-Learn的机器学习探索
Oct 16 Python
python判断字符串是否是json格式方法分享
Nov 07 Python
浅谈关于Python3中venv虚拟环境
Aug 01 Python
使用Python向C语言的链接库传递数组、结构体、指针类型的数据
Jan 29 Python
Django项目使用CircleCI的方法示例
Jul 14 Python
简单了解python 邮件模块的使用方法
Jul 24 Python
Python 一行代码能实现丧心病狂的功能
Jan 18 Python
Python实现清理微信僵尸粉功能示例【基于itchat模块】
May 29 Python
什么是Python中的匿名函数
Jun 02 Python
python判断一个变量是否已经设置的方法
Aug 13 Python
基于Python正确读取资源文件
Sep 14 Python
Python使用内置函数setattr设置对象的属性值
Oct 16 #Python
python pymysql库的常用操作
Oct 16 #Python
Python基于callable函数检测对象是否可被调用
Oct 16 #Python
python collections模块的使用
Oct 16 #Python
python 如何使用find和find_all爬虫、找文本的实现
Oct 16 #Python
Django实现随机图形验证码的示例
Oct 15 #Python
如何使用Python自动生成报表并以邮件发送
Oct 15 #Python
You might like
PHP轻量级数据库操作类Medoo增加、删除、修改、查询例子
2014/07/04 PHP
使用ob系列函数实现PHP网站页面静态化
2014/08/13 PHP
WordPress中给文章添加自定义字段及后台编辑功能区域
2015/12/19 PHP
PC端微信扫码支付成功之后自动跳转php版代码
2017/07/07 PHP
Laravel用户授权系统的使用方法示例
2018/09/16 PHP
PHP+mysql实现的三级联动菜单功能示例
2019/02/15 PHP
PHP使用 Pear 进行安装和卸载包的方法详解
2019/07/08 PHP
PHP实现本地图片转base64格式并上传
2020/05/29 PHP
基于PHP实现用户在线状态检测
2020/11/10 PHP
JavaScript setTimeout和setInterval的使用方法 说明
2010/03/25 Javascript
javascript中获取下个月一号,是星期几
2012/06/01 Javascript
JS实现倒计时和文字滚动的效果实例
2014/10/29 Javascript
jQuery中 DOM节点操作方法大全
2017/10/12 jQuery
React教程之封装一个Portal可复用组件的方法
2018/01/02 Javascript
在vue项目中使用md5加密的方法
2018/09/14 Javascript
基于vue中keep-alive缓存问题的解决方法
2018/09/21 Javascript
React项目动态设置title标题的方法示例
2018/09/26 Javascript
vue中如何去掉空格的方法实现
2018/11/09 Javascript
JS原形与原型链深入详解
2020/05/09 Javascript
前端vue+elementUI如何实现记住密码功能
2020/09/20 Javascript
[03:02]生活中的Dendi之野外度假篇
2016/08/09 DOTA
在Python中使用swapCase()方法转换大小写的教程
2015/05/20 Python
基于python中staticmethod和classmethod的区别(详解)
2017/10/24 Python
Python使用MyQR制作专属动态彩色二维码功能
2019/06/04 Python
pyqt5数据库使用详细教程(打包解决方案)
2020/03/25 Python
mui几种页面跳转方式对比总结概括
2017/08/18 HTML / CSS
美国球鞋寄卖网站:Stadium Goods
2018/05/09 全球购物
物控部经理职务说明书
2014/02/25 职场文书
幼儿园教师岗位职责
2014/03/17 职场文书
市场部业务员岗位职责
2014/04/02 职场文书
2014法制宣传日活动总结
2014/07/09 职场文书
幼儿园六一主持词
2015/06/30 职场文书
致运动员的广播稿
2015/08/19 职场文书
企业转让协议书(范文2篇)
2019/08/15 职场文书
python numpy中multiply与*及matul 的区别说明
2021/05/26 Python
解决MySQL添加新用户-ERROR 1045 (28000)的问题
2022/03/03 MySQL