Python实现获取网站PR及百度权重


Posted in Python onJanuary 21, 2015

访问它,得到Rank_1:1:0。第二个引号后面的数字是PR,因为我的站是没有PR的,所以PR为0.

于是,我们使用requests.get()来访问我们这个构造好的URL,然后获得类似Rank_1:1:0这样的结果,最后通过正则或其他方式得到PR值0。

以上是getPR这个函数的执行过程。再看获取百度权重的过程。

百度权重并不是百度官方给的一个标准,是一些第三方网站计算的一个值,所以并没有像PR一样的接口。所以我们就需要抓取这些第三方网站中的信息了。下面是获取百度权重的函数:

def getBR(www):

    try:

        url = 'http://mytool.chinaz.com/baidusort.aspx?host=%s&sortType=0' % ( www , )

        response = requests.get(url)

        data = response.text

        rex = re.search(r'(<div class="siteinfo">.+?<font.+?>)(\d*?)(</font>)',data,re.I)

        return rex.group(2)

    except :

        return None

使用方法也是传入域名,返回权重值。

我抓取的是站长工具的一个权重咨询的页面:http://mytool.chinaz.com/baidusort.aspx?host={域名}&sortType=0

我的正则就是它:(<div class="siteinfo">.+?<font.+?>)(\d*?)(</font>),大家可以自己查看源代码看一下,就知道正则怎么写了。

好了,我们来批量获取一下这些网站的PR和权重:

Python实现获取网站PR及百度权重

直接看结果:

Python实现获取网站PR及百度权重

单一一个进程扫的话速度会略慢,开10个20个线程批量获取的话应该比较快。

Python 相关文章推荐
深入分析在Python模块顶层运行的代码引起的一个Bug
Jul 04 Python
python中split方法用法分析
Apr 17 Python
Python标准库defaultdict模块使用示例
Apr 28 Python
Python 使用os.remove删除文件夹时报错的解决方法
Jan 13 Python
Windows下anaconda安装第三方包的方法小结(tensorflow、gensim为例)
Apr 05 Python
python 处理dataframe中的时间字段方法
Apr 10 Python
在pycharm中python切换解释器失败的解决方法
Oct 29 Python
python版飞机大战代码分享
Nov 20 Python
Python类的继承、多态及获取对象信息操作详解
Feb 28 Python
Django中自定义模型管理器(Manager)及方法
Sep 23 Python
python工具快速为音视频自动生成字幕(使用说明)
Jan 27 Python
详解Python描述符的工作原理
Jun 11 Python
Python实现抓取页面上链接的简单爬虫分享
Jan 21 #Python
Python中多线程及程序锁浅析
Jan 21 #Python
Python实现的多线程端口扫描工具分享
Jan 21 #Python
Python中的pprint折腾记
Jan 21 #Python
通过C++学习Python
Jan 20 #Python
python入门之语句(if语句、while语句、for语句)
Jan 19 #Python
Python实现删除Android工程中的冗余字符串
Jan 19 #Python
You might like
php select,radio和checkbox默认选择的实现方法
2010/05/15 PHP
PHP 代码规范小结
2012/03/08 PHP
php后门URL的防范
2013/11/12 PHP
php文件压缩之PHPZip类用法实例
2015/06/18 PHP
php使用gzip压缩传输js和css文件的方法
2015/07/29 PHP
Yii2使用自带的UploadedFile实现的文件上传
2016/06/20 PHP
PHP实现数组array转换成xml的方法
2016/07/19 PHP
phpcms配置列表页以及获得文章发布时间
2017/07/04 PHP
某页码显示的helper 少量调整,另附js版
2010/09/12 Javascript
浅谈javascript中的作用域
2012/04/07 Javascript
用nodejs写的一个简单项目打包工具
2013/05/11 NodeJs
jQuery获取节点和子节点文本的方法
2014/07/22 Javascript
JavaScript 模块化编程(笔记)
2015/04/08 Javascript
javascript+html5实现仿flash滚动播放图片的方法
2015/04/27 Javascript
javascript实现table选中的行以指定颜色高亮显示的方法
2015/05/13 Javascript
jQuery实现带延迟效果的滑动菜单代码
2015/09/02 Javascript
setTimeout学习小结
2017/02/08 Javascript
使用vue.js在页面内组件监听scroll事件的方法
2018/09/11 Javascript
React父子组件间的传值的方法
2018/11/13 Javascript
详解React服务端渲染从入门到精通
2019/03/28 Javascript
Python迭代用法实例教程
2014/09/08 Python
详解Django之admin组件的使用和源码剖析
2018/05/04 Python
python画一个玫瑰和一个爱心
2020/08/18 Python
python 内置模块详解
2019/01/01 Python
flask的orm框架SQLAlchemy查询实现解析
2019/12/12 Python
Python 实现将大图切片成小图,将小图组合成大图的例子
2020/03/14 Python
纽约的奢华内衣店:Journelle
2016/07/29 全球购物
adidas澳大利亚官方网站:adidas Australia
2018/04/15 全球购物
美国高品质个性化珠宝销售网站:Jewlr
2018/05/03 全球购物
写clone()方法时,通常都有一行代码,是什么?
2012/10/31 面试题
医务人员竞聘职务自我评价分享
2013/11/08 职场文书
2014年三八妇女节活动总结
2014/03/01 职场文书
英文自荐信常用句子
2014/03/26 职场文书
优秀家长事迹材料
2014/05/17 职场文书
机关单位保密工作责任书
2015/05/11 职场文书
Python识别花卉种类鉴定网络热门植物并自动整理分类
2022/04/08 Python