urllib和BeautifulSoup爬取维基百科的词条简单实例


Posted in Python onJanuary 17, 2018

本文实例主要实现的是使用urllib和BeautifulSoup爬取维基百科的词条,具体如下。

简洁代码:

#引入开发包
from urllib.request import urlopen
from bs4 import BeautifulSoup
import re
#请求URL并把结果用UTF-8编码
resp=urlopen("https://zh.wikipedia.org/wiki/Wikipedia:%E9%A6%96%E9%A1%B5").read().decode("utf-8")
#使用BeautifulSoup去解析
soup=BeautifulSoup(resp,"html.parser")
#print(soup)
#获取所有以/wiki/开头的a标签的href属性
listUrl=soup.findAll("a",href=re.compile("^/wiki/"))
#输出所有词条对应的名称和URL
for link in listUrl:
  if not re.search("\.(jpg|JPG)$",link["href"]):
    print(link.get_text(),"<----->","https://zh.wikipedia.org"+link["href"])

运行结果:

urllib和BeautifulSoup爬取维基百科的词条简单实例

总结

总的来说,Python是简洁而又强大的,调用几个库,就能实现其他语言一大堆代码才能实现的功能。

以上就是本文关于urllib和BeautifulSoup爬取维基百科的词条简单实例的全部内容,希望对大家有所帮助。感兴趣的朋友可以继续参阅本站其他相关专题,如有不足之处,欢迎留言指出。感谢朋友们对本站的支持!

Python 相关文章推荐
python在windows下实现ping操作并接收返回信息的方法
Mar 20 Python
python使用分治法实现求解最大值的方法
May 12 Python
Python的多态性实例分析
Jul 07 Python
菜鸟使用python实现正则检测密码合法性
Jan 05 Python
详解Python 协程的详细用法使用和例子
Jun 15 Python
python实现鸢尾花三种聚类算法(K-means,AGNES,DBScan)
Jun 27 Python
python如何实现数据的线性拟合
Jul 19 Python
python并发爬虫实用工具tomorrow实用解析
Sep 25 Python
详解Django CAS 解决方案
Oct 30 Python
基于SQLAlchemy实现操作MySQL并执行原生sql语句
Jun 10 Python
带你学习Python如何实现回归树模型
Jul 16 Python
Python爬虫进阶之爬取某视频并下载的实现
Dec 08 Python
python thrift搭建服务端和客户端测试程序
Jan 17 #Python
Python元字符的用法实例解析
Jan 17 #Python
Python工程师面试必备25条知识点
Jan 17 #Python
python根据unicode判断语言类型实例代码
Jan 17 #Python
Python线性方程组求解运算示例
Jan 17 #Python
快速了解Python开发中的cookie及简单代码示例
Jan 17 #Python
Python基于高斯消元法计算线性方程组示例
Jan 17 #Python
You might like
PHP+MySQL投票系统的设计和实现分享
2012/09/23 PHP
ThinkPHP模板比较标签用法详解
2014/06/30 PHP
VPS中使用LNMP安装WordPress教程
2014/12/28 PHP
php实现俄罗斯乘法实例
2015/03/07 PHP
PHP实现非阻塞模式的方法分析
2018/07/26 PHP
心扬JS分页函数代码
2010/09/10 Javascript
JavaScript实现表格排序方法
2013/06/14 Javascript
javascript解析json数据的3种方式
2014/05/08 Javascript
如何解决谷歌浏览器下jquery无法获取图片的尺寸
2015/09/10 Javascript
JavaScript实现的伸展收缩型菜单代码
2015/10/14 Javascript
AngularJS ng-bind 指令简单实现
2016/07/30 Javascript
vue实现动态数据绑定
2017/04/28 Javascript
React中jquery引用的实现方法
2017/09/12 jQuery
vue学习之mintui picker选择器实现省市二级联动示例
2017/10/12 Javascript
vue2手机APP项目添加开屏广告或者闪屏广告
2017/11/28 Javascript
webpack构建的详细流程探底
2018/01/08 Javascript
vue打包静态资源后显示空白及static文件路径报错的解决
2020/09/02 Javascript
网站渗透常用Python小脚本查询同ip网站
2017/05/08 Python
Python3.6 Schedule模块定时任务(实例讲解)
2017/11/09 Python
简单实现python收发邮件功能
2018/01/05 Python
Python计算一个给定时间点前一个月和后一个月第一天的方法
2018/05/29 Python
浅谈pyqt5中信号与槽的认识
2019/02/17 Python
Django框架会话技术实例分析【Cookie与Session】
2019/05/24 Python
浅谈PyTorch中in-place operation的含义
2020/06/27 Python
Python3.8安装Pygame教程步骤详解
2020/08/14 Python
使用JS+CSS3技术:让你的名字动起来
2013/04/27 HTML / CSS
科沃斯机器人官网商城:Ecovacs
2016/08/29 全球购物
BrandAlley英国:法国折扣奢侈品网上零售商
2017/07/03 全球购物
在阿联酋购买翻新手机和平板电脑:Teckzu
2021/02/12 全球购物
申请任职学生会干部自荐书范文
2014/02/13 职场文书
财务管理专业毕业生求职信
2014/06/02 职场文书
纪念9.18事变演讲稿
2014/09/14 职场文书
关于开学的感想
2015/08/10 职场文书
2016入党积极分子党课培训心得体会
2016/01/06 职场文书
Windows Server 2012 R2 磁盘分区教程
2022/04/29 Servers
Golang解析JSON对象
2022/04/30 Golang