编程 Python

如何用python爬取微博热搜数据并保存

Posted in Python onFebruary 20, 2021

主要用到requests和bf4两个库
将获得的信息保存在d://hotsearch.txt下

import requests;
import bs4
mylist=[]
r = requests.get(url='https://s.weibo.com/top/summary?Refer=top_hot&topnav=1&wvr=6',timeout=10)
print(r.status_code) # 获取返回状态
r.encoding=r.apparent_encoding
demo = r.text
from bs4 import BeautifulSoup
soup = BeautifulSoup(demo,"html.parser")
for link in soup.find('tbody') :
 hotnumber=''
 if isinstance(link,bs4.element.Tag):
#  print(link('td'))
  lis=link('td')
  hotrank=lis[1]('a')[0].string#热搜排名
  hotname=lis[1].find('span')#热搜名称
  if isinstance(hotname,bs4.element.Tag):
   hotnumber=hotname.string#热搜指数
   pass
  mylist.append([lis[0].string,hotrank,hotnumber,lis[2].string])
f=open("d://hotsearch.txt","w+")
for line in mylist:
 f.write('%s %s %s %s\n'%(line[0],line[1],line[2],line[3]))

知识点扩展：利用python爬取微博热搜并进行数据分析

爬取微博热搜

import schedule
import pandas as pd
from datetime import datetime
import requests
from bs4 import BeautifulSoup

url = "https://s.weibo.com/top/summary?cate=realtimehot&sudaref=s.weibo.com&display=0&retcode=6102"
get_info_dict = {}
count = 0

def main():
  global url, get_info_dict, count
  get_info_list = []
  print("正在爬取数据~~~")
  html = requests.get(url).text
  soup = BeautifulSoup(html, 'lxml')
  for tr in soup.find_all(name='tr', class_=''):
    get_info = get_info_dict.copy()
    get_info['title'] = tr.find(class_='td-02').find(name='a').text
    try:
      get_info['num'] = eval(tr.find(class_='td-02').find(name='span').text)
    except AttributeError:
      get_info['num'] = None
    get_info['time'] = datetime.now().strftime("%Y/%m/%d %H:%M")
    get_info_list.append(get_info)
  get_info_list = get_info_list[1:16]
  df = pd.DataFrame(get_info_list)
  if count == 0:
    df.to_csv('datas.csv', mode='a+', index=False, encoding='gbk')
    count += 1
  else:
    df.to_csv('datas.csv', mode='a+', index=False, header=False, encoding='gbk')

# 定时爬虫
schedule.every(1).minutes.do(main)

while True:
  schedule.run_pending()

pyecharts数据分析

import pandas as pd
from pyecharts import options as opts
from pyecharts.charts import Bar, Timeline, Grid
from pyecharts.globals import ThemeType, CurrentConfig

df = pd.read_csv('datas.csv', encoding='gbk')
print(df)
t = Timeline(init_opts=opts.InitOpts(theme=ThemeType.MACARONS)) # 定制主题
for i in range(int(df.shape[0]/15)):
  bar = (
    Bar()
      .add_xaxis(list(df['title'][i*15: i*15+15][::-1])) # x轴数据
      .add_yaxis('num', list(df['num'][i*15: i*15+15][::-1])) # y轴数据
      .reversal_axis() # 翻转
      .set_global_opts( # 全局配置项
      title_opts=opts.TitleOpts( # 标题配置项
        title=f"{list(df['time'])[i * 15]}",
        pos_right="5%", pos_bottom="15%",
        title_textstyle_opts=opts.TextStyleOpts(
          font_family='KaiTi', font_size=24, color='#FF1493'
        )
      ),
      xaxis_opts=opts.AxisOpts( # x轴配置项
        splitline_opts=opts.SplitLineOpts(is_show=True),
      ),
      yaxis_opts=opts.AxisOpts( # y轴配置项
        splitline_opts=opts.SplitLineOpts(is_show=True),
        axislabel_opts=opts.LabelOpts(color='#DC143C')
      )
    )
      .set_series_opts( # 系列配置项
      label_opts=opts.LabelOpts( # 标签配置
        position="right", color='#9400D3')
    )
  )
  grid = (
    Grid()
      .add(bar, grid_opts=opts.GridOpts(pos_left="24%"))
  )
  t.add(grid, "")
  t.add_schema(
    play_interval=1000, # 轮播速度
    is_timeline_show=False, # 是否显示 timeline 组件
    is_auto_play=True, # 是否自动播放
  )

t.render('时间轮播图.html')

到此这篇关于如何用python爬取微博热搜数据并保存的文章就介绍到这了,更多相关python爬取微博热搜数据内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木！

如何用python爬取微博热搜数据并保存

- Author -

ZileLee

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Ubuntu 14.04+Django 1.7.1+Nginx+uwsgi部署教程

Nov 18 Python

在Python中使用cookielib和urllib2配合PyQuery抓取网页信息

Apr 25 Python

详解Python中find()方法的使用

May 18 Python

从零开始学Python第八周：详解网络编程基础（socket)

Dec 14 Python

Python subprocess模块详细解读

Jan 29 Python

python生成tensorflow输入输出的图像格式的方法

Feb 12 Python

python爬取网页转换为PDF文件

Jun 07 Python

Pytorch实现的手写数字mnist识别功能完整示例

Dec 13 Python

解析Tensorflow之MNIST的使用

Jun 30 Python

python 监控logcat关键字功能

Sep 04 Python

Python入门基础之数字字符串与列表

Feb 01 Python

Python中的 No Module named ***问题及解决

Jul 23 Python

python 统计list中各个元素出现的次数的几种方法

Feb 20 #Python

pandas统计重复值次数的方法实现

Feb 20 #Python

pandas 按日期范围筛选数据的实现

Feb 20 #Python

基于Python-Pycharm实现的猴子摘桃小游戏(源代码)

Feb 20 #Python

pandas按条件筛选数据的实现

Feb 20 #Python

python实现b站直播自动发送弹幕功能

Feb 20 #Python

如何用 Python 制作 GitHub 消息助手

Feb 20 #Python

You might like

php4的session功能评述（二）

2006/10/09 PHP

使用数据库保存session的方法

2006/10/09 PHP

php调用mysql数据 dbclass类

2011/05/07 PHP

PHP实现权限管理功能示例

2017/09/22 PHP

JavaScript DOM 学习第三章内容表格

2010/02/19 Javascript

JS input文本框禁用右键和复制粘贴功能的代码

2010/04/15 Javascript

JavaScript继承方式实例

2010/10/29 Javascript

基于jQuery实现下拉框

2014/11/24 Javascript

jquery实现点击label的同时触发文本框点击事件的方法

2015/06/05 Javascript

JavaScript简单判断复选框是否选中及取出值的方法

2015/08/13 Javascript

onclick和onblur冲突问题的快速解决方法

2016/04/28 Javascript

使用jQuery制作遮罩层弹出效果的极简实例分享

2016/05/12 Javascript

原生JS实现九宫格抽奖效果

2017/04/01 Javascript

新手快速入门微信小程序组件库 iView Weapp

2019/06/24 Javascript

微信JS-SDK实现微信会员卡功能(给用户微信卡包里发送会员卡)

2019/07/25 Javascript

[42:32]Secret vs Optic 2018国际邀请赛小组赛BO2 第二场 8.18

2018/08/19 DOTA

Python 爬虫多线程详解及实例代码

2016/10/08 Python

关于django 数据库迁移(migrate)应该知道的一些事

2018/05/27 Python

Python爬虫框架scrapy实现downloader_middleware设置proxy代理功能示例

2018/08/04 Python

python实现自动登录

2018/09/17 Python

python 利用turtle模块画出没有角的方格

2019/11/23 Python

python GUI库图形界面开发之PyQt5多行文本框控件QTextEdit详细使用方法实例

2020/02/28 Python

Django ValuesQuerySet转json方式

2020/03/16 Python

pycharm第三方库安装失败的问题及解决经验分享

2020/05/09 Python

python 引用传递和值传递详解(实参,形参)

2020/06/05 Python

Python函数递归调用实现原理实例解析

2020/08/11 Python

python中Mako库实例用法

2020/12/31 Python

CSS3移动端vw+rem不依赖JS实现响应式布局的方法

2019/01/23 HTML / CSS

AC Lens：购买隐形眼镜

2017/02/26 全球购物

JBL澳大利亚官方商店：扬声器、耳机和音响系统

2018/05/24 全球购物

JYSK加拿大：购买家具、床垫、家居装饰等

2020/02/14 全球购物

同步和异步有何异同，在什么情况下分别使用他们？

2012/12/28 面试题

平面设计师的工作职责

2013/11/21 职场文书

员工拓展培训方案

2014/02/15 职场文书

个人授权委托书范本

2014/09/14 职场文书

Python中的嵌套循环详情

2022/03/23 Python