Python实现获取网站PR及百度权重


Posted in Python onJanuary 21, 2015

访问它,得到Rank_1:1:0。第二个引号后面的数字是PR,因为我的站是没有PR的,所以PR为0.

于是,我们使用requests.get()来访问我们这个构造好的URL,然后获得类似Rank_1:1:0这样的结果,最后通过正则或其他方式得到PR值0。

以上是getPR这个函数的执行过程。再看获取百度权重的过程。

百度权重并不是百度官方给的一个标准,是一些第三方网站计算的一个值,所以并没有像PR一样的接口。所以我们就需要抓取这些第三方网站中的信息了。下面是获取百度权重的函数:

def getBR(www):

    try:

        url = 'http://mytool.chinaz.com/baidusort.aspx?host=%s&sortType=0' % ( www , )

        response = requests.get(url)

        data = response.text

        rex = re.search(r'(<div class="siteinfo">.+?<font.+?>)(\d*?)(</font>)',data,re.I)

        return rex.group(2)

    except :

        return None

使用方法也是传入域名,返回权重值。

我抓取的是站长工具的一个权重咨询的页面:http://mytool.chinaz.com/baidusort.aspx?host={域名}&sortType=0

我的正则就是它:(<div class="siteinfo">.+?<font.+?>)(\d*?)(</font>),大家可以自己查看源代码看一下,就知道正则怎么写了。

好了,我们来批量获取一下这些网站的PR和权重:

Python实现获取网站PR及百度权重

直接看结果:

Python实现获取网站PR及百度权重

单一一个进程扫的话速度会略慢,开10个20个线程批量获取的话应该比较快。

Python 相关文章推荐
Python入门篇之字符串
Oct 17 Python
python通过字典dict判断指定键值是否存在的方法
Mar 21 Python
python比较两个列表是否相等的方法
Jul 28 Python
Python下的Softmax回归函数的实现方法(推荐)
Jan 26 Python
完美解决安装完tensorflow后pip无法使用的问题
Jun 11 Python
python 除法保留两位小数点的方法
Jul 16 Python
Python selenium文件上传下载功能代码实例
Apr 13 Python
PyCharm+Pipenv虚拟环境开发和依赖管理的教程详解
Apr 16 Python
解决matplotlib.pyplot在Jupyter notebook中不显示图像问题
Apr 22 Python
win10下python3.8的PIL库安装过程
Jun 08 Python
多个版本的python共存时使用pip的正确做法
Oct 26 Python
Pytest allure 命令行参数的使用
Apr 18 Python
Python实现抓取页面上链接的简单爬虫分享
Jan 21 #Python
Python中多线程及程序锁浅析
Jan 21 #Python
Python实现的多线程端口扫描工具分享
Jan 21 #Python
Python中的pprint折腾记
Jan 21 #Python
通过C++学习Python
Jan 20 #Python
python入门之语句(if语句、while语句、for语句)
Jan 19 #Python
Python实现删除Android工程中的冗余字符串
Jan 19 #Python
You might like
[原创]php正则删除img标签的方法示例
2017/05/27 PHP
php使用pecl方式安装扩展操作示例
2019/08/12 PHP
js输入框邮箱自动提示功能代码实现
2013/12/10 Javascript
Javascript实现简单的富文本编辑器附演示
2014/06/16 Javascript
通过jquery 获取URL参数并进行转码
2014/08/18 Javascript
Javascript中replace()小结
2015/09/30 Javascript
浅谈JavaScript中的对象及Promise对象的实现
2015/11/15 Javascript
基于JQuery实现分隔条的功能
2016/06/17 Javascript
seajs模块之间依赖的加载以及模块的执行
2016/10/21 Javascript
使用JS代码实现点击按钮下载文件
2016/11/12 Javascript
js,jq,css多方面实现简易下拉菜单功能
2017/05/13 Javascript
ztree简介_动力节点Java学院整理
2017/07/19 Javascript
微信小程序搭建自己的Https服务器
2019/05/02 Javascript
详解jQuery如何实现模糊搜索
2019/05/10 jQuery
用Golang运行JavaScript的实现示例
2019/11/25 Javascript
js实现无缝轮播图插件封装
2020/07/31 Javascript
Vue 3.0中jsx语法的使用
2020/11/13 Javascript
基于python的七种经典排序算法(推荐)
2016/12/08 Python
python如何在循环引用中管理内存
2018/03/20 Python
基于python生成器封装的协程类
2019/03/20 Python
python从list列表中选出一个数和其对应的坐标方法
2019/07/20 Python
使用Tkinter制作信息提示框
2020/02/18 Python
python 操作excel表格的方法
2020/12/05 Python
class类在python中获取金融数据的实例方法
2020/12/10 Python
基于css3 animate制作绚丽的动画效果
2015/11/24 HTML / CSS
加拿大廉价机票预订网站:CheapOair.ca
2018/03/04 全球购物
大学生个人自我鉴定
2013/12/03 职场文书
冰淇淋店创业计划书范文
2013/12/27 职场文书
企业诚信承诺书
2014/05/23 职场文书
篮球比赛拉拉队口号
2014/06/10 职场文书
2014国庆节幼儿园亲子活动方案
2014/09/16 职场文书
2014小学一年级班主任工作总结
2014/12/05 职场文书
社区文明倡议书
2015/04/28 职场文书
人间正道是沧桑观后感
2015/06/15 职场文书
DjangoRestFramework 使用 simpleJWT 登陆认证完整记录
2021/06/22 Python
JavaScript数组reduce()方法的语法与实例解析
2021/07/07 Javascript