python获取百度热榜链接的实例方法


Posted in Python onAugust 25, 2020

目标网址:

https://www.baidu.com/

要获取的内容:

python获取百度热榜链接的实例方法

链接分析:

从下图可以看出只需要获取关键字,再构建就可以了。

python获取百度热榜链接的实例方法

完整代码:

import requests
import pprint
import re
import urllib.parse

url = 'https://www.baidu.com/'

headers = {
    'Host': 'www.baidu.com',
    'Referer': 'https://www.baidu.com/',
    'User-Agent': 你的User-Agent,
    'Cookie': 你的Cookie
}

response = requests.get(url, headers=headers).content.decode('utf-8')
# 获取关键字
pat = '"pure_title": "(.*?)"'
keyword = re.findall(pat, response, re.S)
print(len(keyword))

for hot_word in keyword:
    # 汉字不符合url标准,所以这里需要进行url编码
    i = urllib.parse.quote(hot_word, encoding='utf-8', errors='replace')
    # url构建
    link = f'https://www.baidu.com/s?cl=3&tn=baidutop10&fr=top1000&wd={i}&rsv_idx=2&rsv_dl=fyb_n_homepage&hisfilter=1'
    print(link)

你会发现结果很长:

python获取百度热榜链接的实例方法

但其实关键字后面的几个参数是可以去掉的,这样url就没有那么长了。

python获取百度热榜链接的实例方法

内容扩展:

python 爬取简单的百度搜索结果

爬取百度搜索结果

主要还要借助xpath helper谷歌浏览器的插件来操作更容易找到需要查找信息的xpath位置

还要首先了解一下百度搜索请求的参数 lm默认为0,天数限制,但是好像只有1有用。

默认每页10条信息,rn

pn是页码

from lxml import etree
import re
import requests
import string
import json
headers = {
  "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36"
}
response = requests.get('https://www.baidu.com/s?wd=腾讯视频优惠&lm=1',headers=headers)
r = response.text
html = etree.HTML(r,etree.HTMLParser())
r1 = html.xpath('//h3')
r2 = html.xpath('//*[@class="c-abstract"]')
r3 = html.xpath('//a[@class="c-showurl"]')
for i in range(10) :
  r11 = r1[i].xpath('string(.)')
  r22 = r2[i].xpath('string(.)')
  r33 = r3[i].xpath('string(.)')
  # with open('test.txt', 'a', encoding='utf-8') as f:
  #   f.write(json.dumps(r11,ensure_ascii=False) + '\n')
  #   f.write(json.dumps(r22, ensure_ascii=False) + '\n')
  #   f.write(json.dumps(r33, ensure_ascii=False) + '\n')
  print(r11,end='\n')
  print(r22,end='\n')
  print(r33)
  print()

到此这篇关于python获取百度热榜链接的实例方法的文章就介绍到这了,更多相关教你用python获取百度热榜链接内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
Python语言技巧之三元运算符使用介绍
Mar 04 Python
python实现bitmap数据结构详解
Feb 17 Python
Python使用sftp实现上传和下载功能(实例代码)
Mar 14 Python
python使用mysql的两种使用方式
Mar 07 Python
基于Django与ajax之间的json传输方法
May 29 Python
Python 根据日志级别打印不同颜色的日志的方法示例
Aug 08 Python
Python数组并集交集补集代码实例
Feb 18 Python
Python内建序列通用操作6种实现方法
Mar 26 Python
jupyter note 实现将数据保存为word
Apr 14 Python
pandas数据拼接的实现示例
Apr 16 Python
Python3内置函数chr和ord实现进制转换
Jun 05 Python
如何用python清洗文件中的数据
Jun 18 Python
利用Python如何制作贪吃蛇及AI版贪吃蛇详解
Aug 24 #Python
python实现自动清理重复文件
Aug 24 #Python
anaconda3安装及jupyter环境配置全教程
Aug 24 #Python
Python+pyftpdlib实现局域网文件互传
Aug 24 #Python
实例代码讲解Python 线程池
Aug 24 #Python
详解python UDP 编程
Aug 24 #Python
PyTorch如何搭建一个简单的网络
Aug 24 #Python
You might like
MySQL数据源表结构图示
2008/06/05 PHP
php对gzip文件或者字符串解压实例参考
2008/07/25 PHP
php计算数组不为空元素个数的方法
2014/01/27 PHP
PHP检测数据类型的几种方法(总结)
2017/03/04 PHP
PHP开发API接口签名生成及验证操作示例
2020/05/27 PHP
Yii中特殊行为ActionFilter的使用方法示例
2020/10/18 PHP
JavaScript中的Array对象使用说明
2011/01/17 Javascript
jquery插件制作教程 txtHover
2012/08/17 Javascript
JavaScript mapreduce工作原理简析
2012/11/25 Javascript
jQuery筛选器children()案例详解(图文)
2013/02/17 Javascript
jquery实现标签上移、下移、置顶
2015/04/26 Javascript
JavaScript中this的9种应用场景及三种复合应用场景
2015/09/12 Javascript
基于canvas实现的钟摆效果完整实例
2016/01/26 Javascript
使用jQuery.Qrcode插件在客户端动态生成二维码并添加自定义Logo
2016/09/01 Javascript
node.JS md5加密中文与php结果不一致的解决方法
2017/05/05 Javascript
关于Ajax的原理以及代码封装详解
2017/09/08 Javascript
用react-redux实现react组件之间数据共享的方法
2018/06/08 Javascript
jQuery实现的导航条点击后高亮显示功能示例
2019/03/04 jQuery
bootstrap table插件动态加载表头
2019/07/19 Javascript
详解 javascript对象创建模式
2020/10/30 Javascript
[01:03]PWL开团时刻DAY6——别打我
2020/11/05 DOTA
Python用Bottle轻量级框架进行Web开发
2016/06/08 Python
tensorflow实现简单的卷积网络
2018/05/24 Python
Python常见MongoDB数据库操作实例总结
2018/07/24 Python
Python 实现「食行生鲜」签到领积分功能
2018/09/26 Python
Python3.6中Twisted模块安装的问题与解决
2019/04/15 Python
Python内置数据类型list各方法的性能测试过程解析
2020/01/07 Python
python利用appium实现手机APP自动化的示例
2021/01/26 Python
在IE6系列等老式浏览器中使用HTML5的新标签实现方案
2012/12/25 HTML / CSS
高尔夫球鞋、服装、手套和装备:FootJoy
2018/12/15 全球购物
阿联酋手表和配饰购物网站:Rivolishop
2019/11/25 全球购物
《匆匆》教学反思
2014/02/22 职场文书
房产继承公证书
2014/04/09 职场文书
社区优秀志愿者先进事迹
2014/05/09 职场文书
2014年教师党员自我评价范文
2014/09/22 职场文书
拔河比赛新闻稿
2015/07/17 职场文书