Python实现获取网站PR及百度权重


Posted in Python onJanuary 21, 2015

访问它,得到Rank_1:1:0。第二个引号后面的数字是PR,因为我的站是没有PR的,所以PR为0.

于是,我们使用requests.get()来访问我们这个构造好的URL,然后获得类似Rank_1:1:0这样的结果,最后通过正则或其他方式得到PR值0。

以上是getPR这个函数的执行过程。再看获取百度权重的过程。

百度权重并不是百度官方给的一个标准,是一些第三方网站计算的一个值,所以并没有像PR一样的接口。所以我们就需要抓取这些第三方网站中的信息了。下面是获取百度权重的函数:

def getBR(www):

    try:

        url = 'http://mytool.chinaz.com/baidusort.aspx?host=%s&sortType=0' % ( www , )

        response = requests.get(url)

        data = response.text

        rex = re.search(r'(<div class="siteinfo">.+?<font.+?>)(\d*?)(</font>)',data,re.I)

        return rex.group(2)

    except :

        return None

使用方法也是传入域名,返回权重值。

我抓取的是站长工具的一个权重咨询的页面:http://mytool.chinaz.com/baidusort.aspx?host={域名}&sortType=0

我的正则就是它:(<div class="siteinfo">.+?<font.+?>)(\d*?)(</font>),大家可以自己查看源代码看一下,就知道正则怎么写了。

好了,我们来批量获取一下这些网站的PR和权重:

Python实现获取网站PR及百度权重

直接看结果:

Python实现获取网站PR及百度权重

单一一个进程扫的话速度会略慢,开10个20个线程批量获取的话应该比较快。

Python 相关文章推荐
Python max内置函数详细介绍
Nov 17 Python
基于Python闭包及其作用域详解
Aug 28 Python
python生成密码字典的方法
Jul 06 Python
opencv python 基于KNN的手写体识别的实例
Aug 03 Python
python实现对任意大小图片均匀切割的示例
Dec 05 Python
python列表使用实现名字管理系统
Jan 30 Python
对python判断是否回文数的实例详解
Feb 08 Python
Python将字符串常量转化为变量方法总结
Mar 17 Python
Python获取基金网站网页内容、使用BeautifulSoup库分析html操作示例
Jun 04 Python
python 判断字符串中是否含有汉字或非汉字的实例
Jul 15 Python
python实现交并比IOU教程
Apr 16 Python
Python实现壁纸下载与轮换
Oct 19 Python
Python实现抓取页面上链接的简单爬虫分享
Jan 21 #Python
Python中多线程及程序锁浅析
Jan 21 #Python
Python实现的多线程端口扫描工具分享
Jan 21 #Python
Python中的pprint折腾记
Jan 21 #Python
通过C++学习Python
Jan 20 #Python
python入门之语句(if语句、while语句、for语句)
Jan 19 #Python
Python实现删除Android工程中的冗余字符串
Jan 19 #Python
You might like
第八节--访问方式
2006/11/16 PHP
Notice: Trying to get property of non-object problem(PHP)解决办法
2012/03/11 PHP
php简单获取目录列表的方法
2015/03/24 PHP
老版本PHP转义Json里的特殊字符的函数
2015/06/08 PHP
zen_cart实现支付前生成订单的方法
2016/05/06 PHP
php指定长度分割字符串str_split函数用法示例
2017/01/30 PHP
实例讲解PHP表单处理
2019/02/15 PHP
[HTML/CSS/Javascript]WWTJS
2007/09/25 Javascript
jQuery Animation实现CSS3动画示例介绍
2013/08/14 Javascript
AngularJS Toaster使用详解
2017/02/24 Javascript
js仿拉勾网首页穿墙广告效果
2017/03/08 Javascript
Bootstrap笔记—折叠实例代码
2017/03/13 Javascript
vue学习笔记之vue1.0和vue2.0的区别介绍
2017/05/17 Javascript
Angular resolve基础用法详解
2018/10/03 Javascript
JavaScript 对引擎、运行时、调用堆栈的概述理解
2018/10/22 Javascript
js中switch语句的学习笔记
2020/03/25 Javascript
vue render函数动态加载img的src路径操作
2020/10/26 Javascript
Python实现把xml或xsl转换为html格式
2015/04/08 Python
Python3匿名函数用法示例
2018/07/25 Python
python创建文件时去掉非法字符的方法
2018/10/31 Python
Python调用服务接口的实例
2019/01/03 Python
python利用itertools生成密码字典并多线程撞库破解rar密码
2019/08/12 Python
TensorFlow Saver:保存和读取模型参数.ckpt实例
2020/02/10 Python
python实现小程序推送页面收录脚本
2020/04/20 Python
pyinstaller将含有多个py文件的python程序做成exe
2020/04/29 Python
Django中的AutoField字段使用
2020/05/18 Python
Pandas的数据过滤实现
2021/01/15 Python
CSS3教程(3):border-color网页边框色彩
2009/04/02 HTML / CSS
信息技术专业大学生个人的自我评价
2013/10/05 职场文书
中医学专业自荐信范文
2014/04/01 职场文书
小班评语大全
2014/05/04 职场文书
销售目标责任书
2014/07/23 职场文书
2014年医药代表工作总结
2014/11/22 职场文书
2015年妇幼卫生工作总结
2015/05/23 职场文书
2016大一新生军训心得体会
2016/01/11 职场文书
MySQL的prepare使用以及遇到的bug
2022/05/11 MySQL