Python网络爬虫信息提取mooc代码实例


Posted in Python onMarch 06, 2020

实例一--爬取页面

import requests
url="https//itemjd.com/2646846.html"
try:
 r=requests.get(url)
 r.raise_for_status()
 r.encoding=r.apparent_encoding
 print(r.text[:1000])
except:
 print("爬取失败")

正常页面爬取

实例二--爬取页面

import requests
url="https://www.amazon.cn/gp/product/B01M8L5Z3Y"
try:
 kv={'user-agent':'Mozilla/5.0'}
 r=requests.get(url,headers=kv)
 r.raise_for_status()
 r.encoding=r.apparent_encoding
 print(r.text[1000:2000])
except:
 print("爬取失败")

对访问用户名有限制,模拟浏览器对网站请求

实例三--爬取搜索引擎

#百度的关键词接口:http://www.baidu.com/s?wd=keyword
#360的关键词接口:http://www.so.com/s?q=keyword
import requests
keyword="python"
try:
 kv={'wd':keyword}
 r=requests.get("http://www.baidu.com/s",params=kv)
 print(r.request.url)
 r.raise_for_status()
 print(len(r.text))
except:
 print("爬取失败")
--------------------------------------------------
import requests
keyword="python"
try:
 kv={'q':keyword}
 r=requests.get("http://www.so.com/s",params=kv)
 print(r.request.url)
 r.raise_for_status()
 print(len(r.text))
except:
 print("爬取失败")

实例四--:爬取图片

import requests
import os
url="http://image.nationalgeographic.com.cn/2017/0211/20170211061910157.jpg"
root="F://pics//"
path=root+url.split('/')[-1]
try:
 if not os.path.exists(root):
  os.mkdir(root)
 if not os.path.exists(path):
  r=requests.get(url)
  with open(path,'wb') as f:
   f.write(r.content)
   f.close()
   print("文件保存成功")
 else:
  print("文件已经存在")
except:
 print("爬取失败")

爬取并保存图片

实例五--IP地址归属地查询:

http://m.ip138.com/ip.asp?ip=ipaddress

url="http://www.ip138.com/iplookup.asp?ip="
try:
 r=requests.get(url+'202.204.80.112'+'&action=2')
 r.raise_for_status()
 r.encoding=r.apparent_encoding
 print(r.text[-500:])
except:
 print("爬取失败")

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
初学python数组的处理代码
Jan 04 Python
Python排序搜索基本算法之选择排序实例分析
Dec 09 Python
Python实现中一次读取多个值的方法
Apr 22 Python
Python读取excel指定列生成指定sql脚本的方法
Nov 28 Python
python制作mysql数据迁移脚本
Jan 01 Python
Python父目录、子目录的相互调用方法
Feb 16 Python
python 画3维轨迹图并进行比较的实例
Dec 06 Python
使用python turtle画高达
Jan 19 Python
在Mac中PyCharm配置python Anaconda环境过程图解
Mar 11 Python
Python @property及getter setter原理详解
Mar 31 Python
PageFactory设计模式基于python实现
Apr 14 Python
使用Python爬取小姐姐图片(beautifulsoup法)
Feb 11 Python
appium+python adb常用命令分享
Mar 06 #Python
Python+appium框架原生代码实现App自动化测试详解
Mar 06 #Python
python使用paramiko实现ssh的功能详解
Mar 06 #Python
python GUI库图形界面开发之PyQt5滚动条控件QScrollBar详细使用方法与实例
Mar 06 #Python
Python object类中的特殊方法代码讲解
Mar 06 #Python
python+Selenium自动化测试——输入,点击操作
Mar 06 #Python
使用 Python ssh 远程登陆服务器的最佳方案
Mar 06 #Python
You might like
PHP中显示格式化的用户输入
2006/10/09 PHP
PHP新手上路(八)
2006/10/09 PHP
php empty函数判断mysql表单是否为空
2010/04/12 PHP
php连接MSsql server的五种方法总结
2018/03/04 PHP
javascript编程起步(第三课)
2007/02/27 Javascript
获取URL地址中的文件名和参数的javascript代码
2009/09/02 Javascript
JQuery 选择器、过滤器介绍
2011/02/14 Javascript
使用jQuery重置(reset)表单的方法
2014/05/05 Javascript
jQuery插件bgStretcher.js实现全屏背景特效
2015/06/05 Javascript
jquery小火箭返回顶部代码分享
2015/08/19 Javascript
Javascript删除指定元素节点的方法
2016/06/21 Javascript
JS正则表达式修饰符global(/g)用法分析
2016/12/27 Javascript
微信小程序实现给循环列表添加点击样式实例
2017/04/26 Javascript
Vue用v-for给循环标签自身属性添加属性值的方法
2018/10/18 Javascript
详解VUE单页应用骨架屏方案
2019/01/17 Javascript
Vue + Scss 动态切换主题颜色实现换肤的示例代码
2020/04/27 Javascript
Python Socket实现简单TCP Server/client功能示例
2017/08/05 Python
Python实现备份MySQL数据库的方法示例
2018/01/11 Python
Python利用heapq实现一个优先级队列的方法
2019/02/03 Python
Python学习笔记之pandas索引列、过滤、分组、求和功能示例
2019/06/03 Python
python里 super类的工作原理详解
2019/06/19 Python
Python Request爬取seo.chinaz.com百度权重网站的查询结果过程解析
2019/08/13 Python
django的模型类管理器——数据库操作的封装详解
2020/04/01 Python
python可迭代对象去重实例
2020/05/15 Python
python自动化发送邮件实例讲解
2021/01/04 Python
python中用ggplot绘制画图实例讲解
2021/01/26 Python
用canvas做一个DVD待机动画的实现代码
2019/04/12 HTML / CSS
Lancome兰蔻官方旗舰店:来自法国的世界知名美妆品牌
2018/06/14 全球购物
世界领先的电子书网站:eBooks.com(在线购买小说、非小说和教科书)
2019/03/30 全球购物
干部选拔任用方案
2014/05/26 职场文书
汉语言文学毕业求职信
2014/07/17 职场文书
意外伤害赔偿协议书范本
2014/09/28 职场文书
建筑安全员岗位职责
2015/02/15 职场文书
天河观后感
2015/06/11 职场文书
家庭贫困证明
2015/06/16 职场文书
详解Oracle块修改跟踪功能
2021/11/07 Oracle