Python实现抓取网页并且解析的实例


Posted in Python onSeptember 20, 2014

本文以实例形式讲述了Python实现抓取网页并解析的功能。主要解析问答与百度的首页。分享给大家供大家参考之用。

主要功能代码如下:

#!/usr/bin/python
#coding=utf-8

import sys 
import re
import urllib2
from urllib import urlencode
from urllib import quote
import time
maxline = 2000

wenda = re.compile("href=\"http://wenda.so.com/q/.+\?src=(.+?)\"")
baidu = re.compile("<a href=\"http://www.baidu.com/link\?url=.+\".*?>更多知道相关问题.*?</a>")
f1 = open("baidupage.txt","w")
f2 = open("wendapage.txt","w")

for line in sys.stdin:
  if maxline == 0:
    break
  query = line.strip();
  time.sleep(1);
  recall_url = "http://www.so.com/s?&q=" + query;
  response = urllib2.urlopen(recall_url);
  html = response.read();                                                   
  f1.write(html)
  m = wenda.search(html);
  if m:
    if m.group(1) == "110":
      print query + "\twenda\t0";
    else:
      print query + "\twenda\t1";
  else:
    print query + "\twenda\t0";
  recall_url = "http://www.baidu.com/s?wd=" + query +"&ie=utf-8";
  response = urllib2.urlopen(recall_url);
  html = response.read();
  f2.write(html)
  m = baidu.search(html);
  if m:
    print query + "\tbaidu\t1";
  else:
    print query + "\tbaidu\t0";
  maxline = maxline - 1;
f1.close()
f2.close()

希望本文所述对大家Python程序设计的学习有所帮助。

Python 相关文章推荐
python 文件和路径操作函数小结
Nov 23 Python
Python写的服务监控程序实例
Jan 31 Python
python基础教程之匿名函数lambda
Jan 17 Python
python 专题九 Mysql数据库编程基础知识
Mar 16 Python
python数据分析数据标准化及离散化详解
Feb 26 Python
Python中将dataframe转换为字典的实例
Apr 13 Python
pyinstaller参数介绍以及总结详解
Jul 12 Python
Pytorch中Tensor与各种图像格式的相互转化详解
Dec 26 Python
python GUI库图形界面开发之PyQt5布局控件QGridLayout详细使用方法与实例
Mar 06 Python
解决pytorch多GPU训练保存的模型,在单GPU环境下加载出错问题
Jun 23 Python
python音频处理的示例详解
Dec 23 Python
pandas 按日期范围筛选数据的实现
Feb 20 Python
跟老齐学Python之字典,你还记得吗?
Sep 20 #Python
跟老齐学Python之再深点,更懂list
Sep 20 #Python
跟老齐学Python之画圈还不简单吗?
Sep 20 #Python
跟老齐学Python之list和str比较
Sep 20 #Python
Python显示进度条的方法
Sep 20 #Python
python中对list去重的多种方法
Sep 18 #Python
Python中用Descriptor实现类级属性(Property)详解
Sep 18 #Python
You might like
php file_get_contents函数轻松采集html数据
2010/04/22 PHP
php通过rmdir删除目录的简单用法
2015/03/18 PHP
php实现等比例压缩图片
2018/07/26 PHP
Prototype ObjectRange对象学习
2009/07/19 Javascript
Javascript 面向对象特性
2009/12/28 Javascript
js调用图片隐藏&amp;显示实现代码
2013/09/13 Javascript
深入浅析JavaScript面向对象和原型函数
2016/02/06 Javascript
JavaScript中的boolean布尔值使用学习及相关技巧讲解
2016/05/26 Javascript
JavaScript每天必学之数组和对象部分
2016/09/17 Javascript
jquery动态添加文本并获取值的方法
2016/10/12 Javascript
js print打印网页指定区域内容的简单实例
2016/11/01 Javascript
几行js代码实现自适应
2017/02/24 Javascript
前端把html表格生成为excel表格的实例
2017/09/19 Javascript
利用nvm管理多个版本的node.js与npm详解
2017/11/02 Javascript
JS 自执行函数原理及用法
2019/08/05 Javascript
微信小程序实现日历小功能
2020/11/18 Javascript
Python字符串处理之count()方法的使用
2015/05/18 Python
基于Django filter中用contains和icontains的区别(详解)
2017/12/12 Python
VSCode下好用的Python插件及配置
2018/04/06 Python
Python 使用PIL numpy 实现拼接图片的示例
2018/05/08 Python
Pycharm设置去除显示的波浪线方法
2018/10/28 Python
Python Numpy库安装与基本操作示例
2019/01/08 Python
python-itchat 获取微信群用户信息的实例
2019/02/21 Python
Pandas中DataFrame的分组/分割/合并的实现
2019/07/16 Python
python 字符串追加实例
2019/07/20 Python
python能做哪方面的工作
2020/06/15 Python
虚拟机下载python是否需要联网
2020/07/27 Python
css3一个简易的 LED 数字时钟实现方法
2020/01/15 HTML / CSS
东南亚排名第一的服务市场:kaodim
2019/03/28 全球购物
《圆明园的毁灭》教学反思
2014/02/28 职场文书
医学生求职信
2014/07/01 职场文书
小学班主任培训心得体会
2016/01/07 职场文书
2016关于读书活动的心得体会
2016/01/14 职场文书
开网店计划分析
2019/07/30 职场文书
56句经典英文座右铭
2019/08/09 职场文书
JS监听Esc 键触发事键
2021/04/14 Javascript