python获取整个网页源码的方法


Posted in Python onAugust 03, 2020

1、Python中获取整个页面的代码:

import requests
res = requests.get('https://blog.csdn.net/yirexiao/article/details/79092355')
res.encoding = 'utf-8'
print(res.text)

2、运行结果

python获取整个网页源码的方法

实例扩展:

from bs4 import BeautifulSoup
import time,re,urllib2
t=time.time()
websiteurls={}
def scanpage(url):
 websiteurl=url
 t=time.time()
 n=0
 html=urllib2.urlopen(websiteurl).read()
 soup=BeautifulSoup(html)
 pageurls=[]
 Upageurls={}
 pageurls=soup.find_all("a",href=True)
 for links in pageurls:
  if websiteurl in links.get("href") and links.get("href") not in Upageurls and links.get("href") not in websiteurls:
   Upageurls[links.get("href")]=0
 for links in Upageurls.keys():
  try:
   urllib2.urlopen(links).getcode()
  except:
   print "connect failed"
  else:
   t2=time.time()
   Upageurls[links]=urllib2.urlopen(links).getcode()
   print n,
   print links,
   print Upageurls[links]
   t1=time.time()
   print t1-t2
  n+=1
 print ("total is "+repr(n)+" links")
 print time.time()-t
scanpage(http://news.163.com/)

到此这篇关于python获取整个网页源码的方法的文章就介绍到这了,更多相关python如何获取整个页面内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
跟老齐学Python之传说中的函数编写条规
Oct 11 Python
Python简单实现安全开关文件的两种方式
Sep 19 Python
python利用高阶函数实现剪枝函数
Mar 20 Python
详解配置Django的Celery异步之路踩坑
Nov 25 Python
python列表使用实现名字管理系统
Jan 30 Python
Python实现获取系统临时目录及临时文件的方法示例
Jun 26 Python
Django后台admin的使用详解
Jul 08 Python
python 执行终端/控制台命令的例子
Jul 12 Python
详解Python对JSON中的特殊类型进行Encoder
Jul 15 Python
Python selenium使用autoIT上传附件过程详解
May 26 Python
基于python实现生成指定大小txt文档
Jul 20 Python
opencv检测动态物体的实现
Jul 21 Python
flask开启多线程的具体方法
Aug 02 #Python
基于opencv实现简单画板功能
Aug 02 #Python
django下创建多个app并设置urls方法
Aug 02 #Python
Django如何在不停机的情况下创建索引
Aug 02 #Python
如何用Anaconda搭建虚拟环境并创建Django项目
Aug 02 #Python
如何解决flask修改静态资源后缓存文件不能及时更改问题
Aug 02 #Python
Flask缓存静态文件的具体方法
Aug 02 #Python
You might like
PHP测试程序运行时间的类
2012/02/05 PHP
深入了解 register_globals (附register_globals=off 网站打不开的解决方法)
2012/06/27 PHP
thinkphp实现数组分页示例
2014/04/13 PHP
Yii2使用dropdownlist实现地区三级联动功能的方法
2016/07/18 PHP
PHP之认识(二)关于Traits的用法详解
2019/04/11 PHP
js列举css中所有图标的实现代码
2011/07/04 Javascript
seajs1.3.0源码解析之module依赖有序加载
2012/11/07 Javascript
javascript截取字符串(通过substring实现并支持中英文混合)
2013/06/24 Javascript
jQuery中click事件的定义和用法
2014/12/20 Javascript
JavaScript模版引擎的基本实现方法浅析
2016/02/15 Javascript
JavaScript的六种继承方式(推荐)
2017/06/26 Javascript
JS去掉字符串中所有的逗号
2017/10/18 Javascript
JS设计模式之状态模式概念与用法分析
2018/02/05 Javascript
jquery+php后台实现省市区联动功能示例
2019/05/23 jQuery
JavaScript鼠标拖拽事件详解
2020/04/03 Javascript
react使用CSS实现react动画功能示例
2020/05/18 Javascript
Vue组件通信$attrs、$listeners实现原理解析
2020/09/03 Javascript
[01:02:47]EG vs Secret 2019国际邀请赛淘汰赛 胜者组 BO3 第一场 8.21.mp4
2020/07/19 DOTA
python获取豆瓣电影简介代码分享
2014/01/16 Python
Python 3实战爬虫之爬取京东图书的图片详解
2017/10/09 Python
Python安装模块的常见问题及解决方法
2018/02/05 Python
pycharm打开命令行或Terminal的方法
2019/01/16 Python
django认证系统 Authentication使用详解
2019/07/22 Python
浅谈Python中threading join和setDaemon用法及区别说明
2020/05/02 Python
Jupyter Notebook 远程访问配置详解
2021/01/11 Python
全球最大的在线旅游公司:Expedia
2017/11/16 全球购物
爱普生美国官网:Epson美国
2018/11/05 全球购物
创业计划书六个要素
2013/12/26 职场文书
餐饮业员工工作决心书
2014/03/11 职场文书
农村婚庆司仪主持词
2014/03/15 职场文书
满月酒主持词
2014/03/27 职场文书
大学生演讲稿
2014/04/25 职场文书
工商管理本科生求职信
2014/07/13 职场文书
教师个人发展总结
2015/02/11 职场文书
2016年小学党支部创先争优活动总结
2016/04/05 职场文书
js 实现验证码输入框示例详解
2022/09/23 Javascript