Python实现抖音热搜定时爬取功能


Posted in Python onMarch 16, 2022

大家好,我是丁小杰。

上次和大家分享了Python定时爬取微博热搜示例介绍,堪称摸鱼神器,一个热榜不够看?今天我们再来爬取一下抖音热搜榜,感兴趣的小伙伴可以自己动手尝试一下哦。

抖音热搜榜

链接:https://tophub.today/n/K7GdaMgdQy

Python实现抖音热搜定时爬取功能

整个热榜共50条数据,本次爬取的内容:排名、热度、标题、链接。

requests 爬取

requests 是一种非常简单的方法,由于该页面没有反爬措施,所以直接get 请求页面即可。

import requests
import pandas as pd

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.54 Safari/537.36'
}
url = 'https://tophub.today/n/K7GdaMgdQy'
page_text = requests.get(url=url, headers=headers).text
page_text

Python实现抖音热搜定时爬取功能

可以看到,只需要几行代码,数据就很轻松地获取到了。

selenium 爬取

selenium设置为无头浏览器,打开指定url获取页面数据。

from selenium import webdriver

option = webdriver.ChromeOptions()
option.add_argument('--headless')

driver = webdriver.Chrome(options=option)

url = 'https://tophub.today/n/K7GdaMgdQy'
driver.get(url)

page_text = driver.page_source

两种爬取方法都能够成功获取到数据,但requests相对简洁,整个代码运行速度也更快,如果页面数据不是动态加载的话,用requests相对方便。

数据解析

现在用lxml库解析我们爬取的数据,并保存到excel中。

tree = etree.HTML(page_text)

tr_list = tree.xpath(
    '//*[@id="page"]/div[2]/div[2]/div[1]/div[2]/div/div[1]/table/tbody/tr')

df = pd.DataFrame(columns=['排名', '热度', '标题', '链接'])
for index, tr in enumerate(tr_list):
    hot = tr.xpath('./td[3]/text()')[0]
    title = tr.xpath('./td[2]/a/text()')[0]
    article_url = tr.xpath('./td[2]/a/@href')[0]
    df = df.append({
        '排名': index + 1,
        '热度': hot,
        '标题': title,
        '链接': article_url}, ignore_index=True)
df['链接'] = 'https://tophub.today' + df['链接']
df

运行结果

Python实现抖音热搜定时爬取功能

设置定时运行

至此,爬取代码已经完成,想要实现每小时自动运行代码,可以使用任务计划程序。

打开任务计划程序,【创建任务】

Python实现抖音热搜定时爬取功能

输入名称,名称随便起就好。

Python实现抖音热搜定时爬取功能

选择【触发器】>>【新建】>>【设置触发时间】

Python实现抖音热搜定时爬取功能

选择【操作】>>【新建】>>【选择程序】

Python实现抖音热搜定时爬取功能

最后确认即可。到时间就会自动运行,或者右键任务手动运行。

这就是今天要分享的内容,整体难度不大,希望大家能够有所收获,文章中的代码拼接起来就可以运行!

以上就是Python实现抖音热搜定时爬取功能的详细内容,更多关于Python抖音热搜爬取的资料请关注三水点靠木其它相关文章!

Python 相关文章推荐
python使用ctypes模块调用windowsapi获取系统版本示例
Apr 17 Python
Python中的defaultdict模块和namedtuple模块的简单入门指南
Apr 01 Python
Python中使用第三方库xlrd来写入Excel文件示例
Apr 05 Python
Python使用Redis实现作业调度系统(超简单)
Mar 22 Python
Django 前后台的数据传递的方法
Aug 08 Python
读取本地json文件,解析json(实例讲解)
Dec 06 Python
Flask框架实现的前端RSA加密与后端Python解密功能详解
Aug 13 Python
Python要求O(n)复杂度求无序列表中第K的大元素实例
Apr 02 Python
Python图像处理之膨胀与腐蚀的操作
Feb 07 Python
python定义具名元组实例操作
Feb 28 Python
Python中json.dumps()函数的使用解析
May 17 Python
python实现Nao机器人的单目测距
Sep 04 Python
Python3的进程和线程你了解吗
Mar 16 #Python
python的列表生成式,生成器和generator对象你了解吗
Mar 16 #Python
bat批处理之字符串操作的实现
Mar 16 #Python
一起来学习Python的元组和列表
Mar 13 #Python
python自动化测试之Selenium详解
python数字类型和占位符详情
Mar 13 #Python
Python+Selenium自动化环境搭建与操作基础详解
You might like
一条久听不愿放下的DIY森海MX500,三言两语话神奇
2021/03/02 无线电
php排序算法(冒泡排序,快速排序)
2012/10/09 PHP
PHP CodeBase:将时间显示为"刚刚""n分钟/小时前"的方法详解
2013/06/06 PHP
php操作redis命令及代码实例大全
2020/11/19 PHP
JQuery判断子iframe何时加载完成解决方案
2013/08/20 Javascript
Javascript实现简单的富文本编辑器附演示
2014/06/16 Javascript
基于Javascript实现返回顶部按钮
2016/02/29 Javascript
JavaScript弹出对话框的三种方式
2016/03/23 Javascript
Javascript中的迭代、归并方法详解
2016/06/14 Javascript
javascript入门之window对象【新手必看】
2016/11/22 Javascript
详解Vue2 无限级分类(添加,删除,修改)
2017/03/07 Javascript
一个简单的node.js界面实现方法
2018/06/01 Javascript
pm2启动ssr失败的解决方法
2019/06/29 Javascript
JS猜数字游戏实例讲解
2020/06/30 Javascript
微信小程序:报错(in promise) MiniProgramError
2020/10/30 Javascript
[48:48]2014 DOTA2国际邀请赛中国区预选赛 SPD-GAMING VS Dream TIME
2014/05/21 DOTA
Python面向对象之继承代码详解
2018/01/29 Python
详解python字节码
2018/02/07 Python
Python SqlAlchemy动态添加数据表字段实例解析
2018/02/07 Python
Python 内置函数进制转换的用法(十进制转二进制、八进制、十六进制)
2018/04/30 Python
Python用于学习重要算法的模块pygorithm实例浅析
2018/08/16 Python
python 对字典按照value进行排序的方法
2019/05/09 Python
python实现一行输入多个值和一行输出多个值的例子
2019/07/16 Python
Python sys模块常用方法解析
2020/02/20 Python
tensorflow 2.0模式下训练的模型转成 tf1.x 版本的pb模型实例
2020/06/22 Python
python为什么会环境变量设置不成功
2020/06/23 Python
python判断是空的实例分享
2020/07/06 Python
Python爬虫防封ip的一些技巧
2020/08/06 Python
详解CSS3的box-shadow属性制作边框阴影效果的方法
2016/05/10 HTML / CSS
详解移动端HTML5页面端去掉input输入框的白色背景和边框(兼容Android和ios)
2016/12/15 HTML / CSS
Clearly新西兰:购买眼镜、太阳镜和隐形眼镜
2018/04/26 全球购物
No7 Beauty美国官网:英国国民护肤品牌
2019/10/31 全球购物
关于廉洁的广播稿
2014/01/30 职场文书
个人合作协议书范本
2014/04/18 职场文书
小学一年级学生评语大全
2014/12/25 职场文书
2016年大学生党员承诺书
2016/03/24 职场文书