python获取百度热榜链接的实例方法


Posted in Python onAugust 25, 2020

目标网址:

https://www.baidu.com/

要获取的内容:

python获取百度热榜链接的实例方法

链接分析:

从下图可以看出只需要获取关键字,再构建就可以了。

python获取百度热榜链接的实例方法

完整代码:

import requests
import pprint
import re
import urllib.parse

url = 'https://www.baidu.com/'

headers = {
    'Host': 'www.baidu.com',
    'Referer': 'https://www.baidu.com/',
    'User-Agent': 你的User-Agent,
    'Cookie': 你的Cookie
}

response = requests.get(url, headers=headers).content.decode('utf-8')
# 获取关键字
pat = '"pure_title": "(.*?)"'
keyword = re.findall(pat, response, re.S)
print(len(keyword))

for hot_word in keyword:
    # 汉字不符合url标准,所以这里需要进行url编码
    i = urllib.parse.quote(hot_word, encoding='utf-8', errors='replace')
    # url构建
    link = f'https://www.baidu.com/s?cl=3&tn=baidutop10&fr=top1000&wd={i}&rsv_idx=2&rsv_dl=fyb_n_homepage&hisfilter=1'
    print(link)

你会发现结果很长:

python获取百度热榜链接的实例方法

但其实关键字后面的几个参数是可以去掉的,这样url就没有那么长了。

python获取百度热榜链接的实例方法

内容扩展:

python 爬取简单的百度搜索结果

爬取百度搜索结果

主要还要借助xpath helper谷歌浏览器的插件来操作更容易找到需要查找信息的xpath位置

还要首先了解一下百度搜索请求的参数 lm默认为0,天数限制,但是好像只有1有用。

默认每页10条信息,rn

pn是页码

from lxml import etree
import re
import requests
import string
import json
headers = {
  "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36"
}
response = requests.get('https://www.baidu.com/s?wd=腾讯视频优惠&lm=1',headers=headers)
r = response.text
html = etree.HTML(r,etree.HTMLParser())
r1 = html.xpath('//h3')
r2 = html.xpath('//*[@class="c-abstract"]')
r3 = html.xpath('//a[@class="c-showurl"]')
for i in range(10) :
  r11 = r1[i].xpath('string(.)')
  r22 = r2[i].xpath('string(.)')
  r33 = r3[i].xpath('string(.)')
  # with open('test.txt', 'a', encoding='utf-8') as f:
  #   f.write(json.dumps(r11,ensure_ascii=False) + '\n')
  #   f.write(json.dumps(r22, ensure_ascii=False) + '\n')
  #   f.write(json.dumps(r33, ensure_ascii=False) + '\n')
  print(r11,end='\n')
  print(r22,end='\n')
  print(r33)
  print()

到此这篇关于python获取百度热榜链接的实例方法的文章就介绍到这了,更多相关教你用python获取百度热榜链接内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
浅谈python中np.array的shape( ,)与( ,1)的区别
Jun 04 Python
Python wxPython库使用wx.ListBox创建列表框示例
Sep 03 Python
详解Python Qt的窗体开发的基本操作
Jul 14 Python
python numpy 矩阵堆叠实例
Jan 17 Python
python super用法及原理详解
Jan 20 Python
在pycharm中实现删除bookmark
Feb 14 Python
Python urlencode和unquote函数使用实例解析
Mar 31 Python
Python OpenCV实现测量图片物体宽度
May 27 Python
Python 远程开关机的方法
Nov 18 Python
Django项目如何获得SSL证书与配置HTTPS
Apr 30 Python
Python基础之hashlib模块详解
May 06 Python
用Python生成会跳舞的美女
Jan 18 Python
利用Python如何制作贪吃蛇及AI版贪吃蛇详解
Aug 24 #Python
python实现自动清理重复文件
Aug 24 #Python
anaconda3安装及jupyter环境配置全教程
Aug 24 #Python
Python+pyftpdlib实现局域网文件互传
Aug 24 #Python
实例代码讲解Python 线程池
Aug 24 #Python
详解python UDP 编程
Aug 24 #Python
PyTorch如何搭建一个简单的网络
Aug 24 #Python
You might like
PHP全概率运算函数(优化版) Webgame开发必备
2011/07/04 PHP
PHP函数篇之掌握ord()与chr()函数应用
2011/12/05 PHP
PHP获取当前日期所在星期(月份)的开始日期与结束日期(实现代码)
2013/06/18 PHP
php var_export与var_dump 输出的不同
2013/08/09 PHP
PHP+MySQL存储数据常见中文乱码问题小结
2016/06/13 PHP
PHP实现微信公众号验证Token的示例代码
2019/12/16 PHP
火狐4、谷歌12不支持Jquery Validator的解决方法分享
2011/06/20 Javascript
阻止子元素继承父元素事件具体思路及实现
2013/05/02 Javascript
Jquery实现网页跳转或用命令打开指定网页的解决方法
2013/07/09 Javascript
js传参数受特殊字符影响错误的解决方法
2013/10/21 Javascript
javascript避免数字计算精度误差的方法详解
2014/03/05 Javascript
js针对ip地址、子网掩码、网关的逻辑性判断
2016/01/06 Javascript
jQuery实现漂亮实用的商品图片tips提示框效果(无图片箭头+阴影)
2016/04/16 Javascript
Vue监听数据对象变化源码
2017/03/09 Javascript
angular.fromJson与toJson方法用法示例
2017/05/17 Javascript
node实现简单的反向代理服务器
2017/07/26 Javascript
使用JavaScript实现点击循环切换图片效果
2017/09/03 Javascript
使用Object.defineProperty如何巧妙找到修改某个变量的准确代码位置
2018/11/02 Javascript
vue draggable resizable 实现可拖拽缩放的组件功能
2019/07/15 Javascript
VUE 单页面使用 echart 窗口变化时的用法
2020/07/30 Javascript
python将文本转换成图片输出的方法
2015/04/28 Python
对于Python中RawString的理解介绍
2016/07/07 Python
python调用外部程序的实操步骤
2019/03/04 Python
简单了解python反射机制的一些知识
2019/07/13 Python
python实现ftp文件传输系统(案例分析)
2020/03/20 Python
Flask处理Web表单的实现方法
2021/01/31 Python
python爬虫利用代理池更换IP的方法步骤
2021/02/21 Python
意大利消费电子产品购物网站:SLG Store
2019/12/26 全球购物
Python中pass语句的作用是什么
2016/06/01 面试题
幼儿园秋游活动方案
2014/01/21 职场文书
追悼会主持词
2014/03/20 职场文书
安全先进个人材料
2014/12/29 职场文书
证婚人婚礼致辞
2015/07/28 职场文书
微信早安问候语
2015/11/10 职场文书
Oracle11g r2 卸载干净重装的详细教程(亲测有效已重装过)
2021/06/04 Oracle
NASA 机智号火星直升机拍到了毅力号设备碎片
2022/04/29 数码科技