python爬虫今日热榜数据到txt文件的源码


Posted in Python onFebruary 23, 2021

今日热榜:https://tophub.today/

python爬虫今日热榜数据到txt文件的源码

爬取数据及保存格式:

python爬虫今日热榜数据到txt文件的源码

爬取后保存为.txt文件:

python爬虫今日热榜数据到txt文件的源码

部分内容:

python爬虫今日热榜数据到txt文件的源码
python爬虫今日热榜数据到txt文件的源码

源码及注释:

import requests
from bs4 import BeautifulSoup

def download_page(url):
  headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36"}
  try:
    r = requests.get(url,timeout = 30,headers=headers)
    return r.text
  except:
    return "please inspect your url or setup"


def get_content(html,tag):
  output = """  排名:{}\n  标题:{} \n  热度:{}\n  链接:{}\n  ------------\n"""
  output2 = """平台:{}  榜单类型:{}  最近更新:{}\n------------\n"""
  num=[]
  title=[]
  hot=[]
  href=[]
  soup = BeautifulSoup(html, 'html.parser')
  con = soup.find('div',attrs={'class':'bc-cc'})
  con_list = con.find_all('div', class_="cc-cd")
  for i in con_list: 
    author = i.find('div', class_='cc-cd-lb').get_text() # 获取平台名字
    time = i.find('div', class_='i-h').get_text() # 获取最近更新
    link = i.find('div', class_='cc-cd-cb-l').find_all('a') # 获取所有链接 
    gender = i.find('span', class_='cc-cd-sb-st').get_text() # 获取类型 
    save_txt(tag,output2.format(author, gender,time))
    for k in link:
      href.append(k['href'])
      num.append(k.find('span', class_='s').get_text())
      title.append(str(k.find('span', class_='t').get_text()))
      hot.append(str(k.find('span', class_='e').get_text()))
    for h in range(len(num)): 
      save_txt(tag,output.format(num[h], title[h], hot[h], href[h]))


def save_txt(tag,*args):
  for i in args:
    with open(tag+'.txt', 'a', encoding='utf-8') as f:
      f.write(i)


def main():
  #   综合  科技  娱乐  社区    购物   财经
  page=['news','tech','ent','community','shopping','finance']
  for tag in page:
    url = 'https://tophub.today/c/{}'.format(tag)
    html = download_page(url)
    get_content(html,tag)

if __name__ == '__main__':
  main()

到此这篇关于python爬虫今日热榜数据到txt文件的源码的文章就介绍到这了,更多相关python爬虫今日热榜数据内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
推荐下python/ironpython:从入门到精通
Oct 02 Python
python发送arp欺骗攻击代码分析
Jan 16 Python
python使用urllib模块和pyquery实现阿里巴巴排名查询
Jan 16 Python
Python基本数据类型详细介绍
Mar 11 Python
python实现用户登录系统
May 21 Python
在mac下查找python包存放路径site-packages的实现方法
Nov 06 Python
pandas 空数据处理方法详解
Nov 02 Python
Pytorch基本变量类型FloatTensor与Variable用法
Jan 08 Python
python cv2.resize函数high和width注意事项说明
Jul 05 Python
Python 中如何写注释
Aug 28 Python
详解python算法常用技巧与内置库
Oct 17 Python
PyQT5速成教程之Qt Designer介绍与入门
Nov 02 Python
如何用Python和JS实现的Web SSH工具
Feb 23 #Python
Python 带星号(* 或 **)的函数参数详解
Feb 23 #Python
python解决OpenCV在读取显示图片的时候闪退的问题
Feb 23 #Python
关于探究python中sys.argv时遇到的问题详解
Feb 23 #Python
python链表类中获取元素实例方法
Feb 23 #Python
Python之多进程与多线程的使用
Feb 23 #Python
Python绘制词云图之可视化神器pyecharts的方法
Feb 23 #Python
You might like
php+oracle 分页类
2006/10/09 PHP
php 上传功能实例代码
2010/04/13 PHP
php session劫持和防范的方法
2013/11/12 PHP
PHP中使用BigMap实例
2015/03/30 PHP
Laravel validate error处理,ajax,json示例
2019/10/25 PHP
php使用gearman进行任务分发操作实例详解
2020/02/26 PHP
理解 JavaScript 预解析
2009/10/25 Javascript
js+html+css实现鼠标移动div实例
2013/01/30 Javascript
js setTimeout 参数传递使用介绍
2013/08/13 Javascript
javascript中创建对象的几种方法总结
2013/11/01 Javascript
PHP abstract与interface之间的区别
2013/11/11 Javascript
JS判断表单输入是否为空(示例代码)
2013/12/23 Javascript
jQuery中prependTo()方法用法实例
2015/01/08 Javascript
深入理解angularjs过滤器
2016/05/25 Javascript
微信小程序 删除项目工程实现步骤
2016/11/10 Javascript
jQuery实现两个select控件的互移操作
2016/12/22 Javascript
解决ajax不能访问本地文件问题(利用js跨域原理)
2017/01/24 Javascript
Javascript基础回顾之(二) js作用域
2017/01/31 Javascript
微信小程序loading组件显示载入动画用法示例【附源码下载】
2017/12/09 Javascript
node中的密码安全(加密)
2018/09/17 Javascript
layer弹出层取消遮罩的方法
2019/09/25 Javascript
uni-app自定义导航栏按钮|uniapp仿微信顶部导航条功能
2019/11/12 Javascript
Vue中img的src是动态渲染时不显示的解决
2019/11/14 Javascript
[01:04:06]DOTA2上海特级锦标赛A组资格赛#2 Secret VS EHOME第一局
2016/02/26 DOTA
[01:27:44]DOTA2-DPC中国联赛 正赛 PSG.LGD vs Aster BO3 第一场 1月24日
2021/03/11 DOTA
Python for循环生成列表的实例
2018/06/15 Python
python3 pygame实现接小球游戏
2019/05/14 Python
PyTorch中Tensor的数据统计示例
2020/02/17 Python
python numpy库linspace相同间隔采样的实现
2020/02/25 Python
django实现更改数据库某个字段以及字段段内数据
2020/03/31 Python
HTML5 canvas标签实现刮刮卡效果
2015/04/24 HTML / CSS
英国领先的狗和宠物美容专家:Christies Direct
2017/04/03 全球购物
Myprotein中国网站:欧洲畅销运动营养品牌
2021/02/11 全球购物
乐观大学生的自我评价
2014/01/10 职场文书
音乐教育感言
2014/03/05 职场文书
三星 3nm 芯片将于第二季度开始量产
2022/04/29 数码科技