Python实现抓取网页并且解析的实例


Posted in Python onSeptember 20, 2014

本文以实例形式讲述了Python实现抓取网页并解析的功能。主要解析问答与百度的首页。分享给大家供大家参考之用。

主要功能代码如下:

#!/usr/bin/python
#coding=utf-8

import sys 
import re
import urllib2
from urllib import urlencode
from urllib import quote
import time
maxline = 2000

wenda = re.compile("href=\"http://wenda.so.com/q/.+\?src=(.+?)\"")
baidu = re.compile("<a href=\"http://www.baidu.com/link\?url=.+\".*?>更多知道相关问题.*?</a>")
f1 = open("baidupage.txt","w")
f2 = open("wendapage.txt","w")

for line in sys.stdin:
  if maxline == 0:
    break
  query = line.strip();
  time.sleep(1);
  recall_url = "http://www.so.com/s?&q=" + query;
  response = urllib2.urlopen(recall_url);
  html = response.read();                                                   
  f1.write(html)
  m = wenda.search(html);
  if m:
    if m.group(1) == "110":
      print query + "\twenda\t0";
    else:
      print query + "\twenda\t1";
  else:
    print query + "\twenda\t0";
  recall_url = "http://www.baidu.com/s?wd=" + query +"&ie=utf-8";
  response = urllib2.urlopen(recall_url);
  html = response.read();
  f2.write(html)
  m = baidu.search(html);
  if m:
    print query + "\tbaidu\t1";
  else:
    print query + "\tbaidu\t0";
  maxline = maxline - 1;
f1.close()
f2.close()

希望本文所述对大家Python程序设计的学习有所帮助。

Python 相关文章推荐
Python os模块中的isfile()和isdir()函数均返回false问题解决方法
Feb 04 Python
Python中的Matplotlib模块入门教程
Apr 15 Python
11月编程语言排行榜 Python逆袭C#上升到第4
Nov 15 Python
Python OpenCV利用笔记本摄像头实现人脸检测
Aug 20 Python
python占位符输入方式实例
May 27 Python
Python自定义函数计算给定日期是该年第几天的方法示例
May 30 Python
Python中判断子串存在的性能比较及分析总结
Jun 23 Python
基于sklearn实现Bagging算法(python)
Jul 11 Python
Django如何将URL映射到视图
Jul 29 Python
Python中six模块基础用法
Dec 08 Python
python pyenv多版本管理工具的使用
Dec 23 Python
基于注解实现 SpringBoot 接口防刷的方法
Mar 02 Python
跟老齐学Python之字典,你还记得吗?
Sep 20 #Python
跟老齐学Python之再深点,更懂list
Sep 20 #Python
跟老齐学Python之画圈还不简单吗?
Sep 20 #Python
跟老齐学Python之list和str比较
Sep 20 #Python
Python显示进度条的方法
Sep 20 #Python
python中对list去重的多种方法
Sep 18 #Python
Python中用Descriptor实现类级属性(Property)详解
Sep 18 #Python
You might like
php性能优化分析工具XDebug 大型网站调试工具
2011/05/22 PHP
PHP 实现explort() 功能的详解
2013/06/20 PHP
php中OR与|| AND与&amp;&amp;的区别总结
2013/10/26 PHP
CodeIgniter使用phpcms模板引擎
2013/11/12 PHP
PHP中执行MYSQL事务解决数据写入不完整等情况
2014/01/07 PHP
php上传文件并存储到mysql数据库的方法
2015/03/16 PHP
php使用ftp实现文件上传与下载功能
2017/07/21 PHP
php在windows环境下获得cpu内存实时使用率(推荐)
2018/02/08 PHP
Thinkphp5框架实现获取数据库数据到视图的方法
2019/08/14 PHP
laravel 输出最后执行sql 附:whereIn的使用方法
2019/10/10 PHP
jquery里的each使用方法详解
2010/12/22 Javascript
javascript实现限制上传文件大小
2015/02/06 Javascript
javascript获取网页宽高方法汇总
2015/07/19 Javascript
js仿手机页面文件下拉刷新效果
2016/10/14 Javascript
微信 java 实现js-sdk 图片上传下载完整流程
2016/10/21 Javascript
预防网页挂马的方法总结
2016/11/03 Javascript
JS去掉字符串前后空格、阻止表单提交的实现代码
2017/06/08 Javascript
详解Angular2组件之间如何通信
2017/06/22 Javascript
node-sass安装失败的原因与解决方法
2017/09/04 Javascript
Node.js中Bootstrap-table的两种分页的实现方法
2017/09/18 Javascript
谈谈vue中mixin的一点理解
2017/12/12 Javascript
vue webpack实用技巧总结
2018/04/24 Javascript
vue组件(全局,局部,动态加载组件)
2018/09/02 Javascript
vue改变对象或数组时的刷新机制的方法总结
2019/04/24 Javascript
python中安装django模块的方法
2020/03/12 Python
瑞士香水购物网站:Parfumcity.ch
2017/01/14 全球购物
Julep官网:美容产品和指甲油
2017/02/25 全球购物
美国尼曼百货官网:Neiman Marcus
2019/09/05 全球购物
Linux管理员面试经常问道的相关命令
2014/12/12 面试题
财务会计专业求职信范文
2013/12/31 职场文书
五一促销活动总结
2014/07/01 职场文书
焦裕禄精神心得体会
2014/09/02 职场文书
小学生教师节演讲稿
2014/09/03 职场文书
《学会生存》读后感3篇
2019/12/09 职场文书
启迪人心的励志语录:脾气永远不要大于本事
2020/01/02 职场文书
python opencv通过4坐标剪裁图片
2021/06/05 Python