Python实现抓取网页并且解析的实例


Posted in Python onSeptember 20, 2014

本文以实例形式讲述了Python实现抓取网页并解析的功能。主要解析问答与百度的首页。分享给大家供大家参考之用。

主要功能代码如下:

#!/usr/bin/python
#coding=utf-8

import sys 
import re
import urllib2
from urllib import urlencode
from urllib import quote
import time
maxline = 2000

wenda = re.compile("href=\"http://wenda.so.com/q/.+\?src=(.+?)\"")
baidu = re.compile("<a href=\"http://www.baidu.com/link\?url=.+\".*?>更多知道相关问题.*?</a>")
f1 = open("baidupage.txt","w")
f2 = open("wendapage.txt","w")

for line in sys.stdin:
  if maxline == 0:
    break
  query = line.strip();
  time.sleep(1);
  recall_url = "http://www.so.com/s?&q=" + query;
  response = urllib2.urlopen(recall_url);
  html = response.read();                                                   
  f1.write(html)
  m = wenda.search(html);
  if m:
    if m.group(1) == "110":
      print query + "\twenda\t0";
    else:
      print query + "\twenda\t1";
  else:
    print query + "\twenda\t0";
  recall_url = "http://www.baidu.com/s?wd=" + query +"&ie=utf-8";
  response = urllib2.urlopen(recall_url);
  html = response.read();
  f2.write(html)
  m = baidu.search(html);
  if m:
    print query + "\tbaidu\t1";
  else:
    print query + "\tbaidu\t0";
  maxline = maxline - 1;
f1.close()
f2.close()

希望本文所述对大家Python程序设计的学习有所帮助。

Python 相关文章推荐
Python输出PowerPoint(ppt)文件中全部文字信息的方法
Apr 28 Python
Python中对元组和列表按条件进行排序的方法示例
Nov 10 Python
使用rst2pdf实现将sphinx生成PDF
Jun 07 Python
urllib和BeautifulSoup爬取维基百科的词条简单实例
Jan 17 Python
django中静态文件配置static的方法
May 20 Python
Selenium控制浏览器常见操作示例
Aug 13 Python
python实现一组典型数据格式转换
Dec 15 Python
python字符串替换re.sub()方法解析
Sep 18 Python
pytorch 实现模型不同层设置不同的学习率方式
Jan 06 Python
numpy库ndarray多维数组的维度变换方法(reshape、resize、swapaxes、flatten)
Apr 28 Python
python获取时间戳的实现示例(10位和13位)
Sep 23 Python
python爬不同图片分别保存在不同文件夹中的实现
Apr 02 Python
跟老齐学Python之字典,你还记得吗?
Sep 20 #Python
跟老齐学Python之再深点,更懂list
Sep 20 #Python
跟老齐学Python之画圈还不简单吗?
Sep 20 #Python
跟老齐学Python之list和str比较
Sep 20 #Python
Python显示进度条的方法
Sep 20 #Python
python中对list去重的多种方法
Sep 18 #Python
Python中用Descriptor实现类级属性(Property)详解
Sep 18 #Python
You might like
jquery1.4后 jqDrag 拖动 不可用
2010/02/06 Javascript
Three.js源码阅读笔记(光照部分)
2012/12/27 Javascript
使用node.js半年来总结的 10 条经验
2014/08/18 Javascript
纯js模拟div层弹性运动的方法
2015/07/27 Javascript
js判断浏览器类型及设备(移动页面开发)
2015/07/30 Javascript
javascript日期格式化方法汇总
2015/10/04 Javascript
jquery实现的V字形显示效果代码
2015/10/27 Javascript
jQuery隐藏和显示效果实现
2016/04/06 Javascript
jQuery实现布局高宽自适应的简单实例
2016/05/28 Javascript
老生常谈 关于JavaScript的类的继承
2016/06/24 Javascript
Angular.js自定义指令学习笔记实例
2017/02/24 Javascript
jquery+css实现侧边导航栏效果
2017/06/12 jQuery
vue和better-scroll实现列表左右联动效果详解
2019/04/29 Javascript
Vue 一键清空表单的实现方法
2020/02/07 Javascript
在Vue中使用mockjs代码实例
2020/11/25 Vue.js
[38:23]2014 DOTA2国际邀请赛中国区预选赛 5 23 CIS VS LGD第一场
2014/05/24 DOTA
python实现的udp协议Server和Client代码实例
2014/06/04 Python
详解Python命令行解析工具Argparse
2016/04/20 Python
使用python绘制常用的图表
2016/08/27 Python
对python中dict和json的区别详解
2018/12/18 Python
Python+OpenCV图片局部区域像素值处理改进版详解
2019/01/23 Python
python取余运算符知识点详解
2019/06/27 Python
Python中pyecharts安装及安装失败的解决方法
2020/02/18 Python
Python基于Dlib的人脸识别系统的实现
2020/02/26 Python
Java ExcutorService优雅关闭方式解析
2020/05/30 Python
Tessabit日本:集世界奢侈品和设计师品牌的意大利精品买手店
2020/01/07 全球购物
美国基督教约会网站:ChristianCafe.com
2020/02/04 全球购物
5个HTML5的常用本地存储方式详解与介绍
2021/03/27 HTML / CSS
洗煤厂厂长岗位职责
2014/01/03 职场文书
路政管理求职信
2014/06/18 职场文书
2014年化妆品销售工作总结
2014/12/01 职场文书
Django实现聊天机器人
2021/05/31 Python
配置nginx 重定向到系统维护页面
2021/06/08 Servers
Nginx下SSL证书安装部署步骤介绍
2021/12/06 Servers
Redis中有序集合的内部实现方式的详细介绍
2022/03/16 Redis
Python 绘制多因子柱状图
2022/05/11 Python