编程 Python

Python爬取网页信息的示例

Posted in Python onSeptember 24, 2020

Python爬取网页信息的步骤

以爬取英文名字网站（https://nameberry.com/）中每个名字的评论内容，包括英文名，用户名，评论的时间和评论的内容为例。

1、确认网址

在浏览器中输入初始网址，逐层查找链接，直到找到需要获取的内容。

在打开的界面中，点击鼠标右键，在弹出的对话框中，选择“检查”，则在界面会显示该网页的源代码，在具体内容处点击查找，可以定位到需要查找的内容的源码。

注意：代码显示的方式与浏览器有关，有些浏览器不支持显示源代码功能（360浏览器，谷歌浏览器，火狐浏览器等是支持显示源代码功能）

步骤图：

1)首页，获取A~Z的页面链接

Python爬取网页信息的示例

2)名字链接页，获取每个字母中的名字链接（存在翻页情况）

Python爬取网页信息的示例

3)名字内容页，获取每个名字的评论信息

Python爬取网页信息的示例

2、编写测试代码

1)获取A~Z链接，在爬取网页信息时，为了减少网页的响应时间，可以根据已知的信息，自动生成对应的链接，这里采取自动生成A~Z之间的连接，以pandas的二维数组形式存储

def get_url1():
 urls=[]
 # A,'B','C','D','E','F','G','H','I','J','K','L','M','N','O','P','Q','R','S','T','U','V','W','X','Y','Z'
 a=['A','B','C','D','E','F','G','H','I','J','K','L','M','N','O','P','Q','R','S','T','U','V','W','X','Y','Z']
#自动生成A~Z的链接
 for i in a:
  urls.append("https://nameberry.com/search/baby_names_starting_with/%s" %i)
 dp=pd.DataFrame(urls)
 dp.to_csv("A~Z_Link1.csv",mode="a",encoding='utf_8_sig')

#循环用于在每个字母链接下，调用爬取名字链接的页面的函数，即函数嵌套
 for j in urls:
  get_pages_Html(j)
 return urls

2)获取名字链接，根据网页源码分析出包含名字链接的标签，编写代码，名字链接用直接存储的方式存储，方便读取名字链接进行对名字的评论内容的获取

#获取页数
def get_pages_Html(url1):
 req = requests.get(url1)
 soup=BeautifulSoup(req.text)
#异常处理，为解决页面不存在多页的问题，使用re正则表达式获取页面数
 try:
  lastpage = soup.find(class_="last").find("a")['href']
  str1='{}'.format(lastpage)
  b=re.findall('\\d+', str1 )
  for page in b:
   num=page
 except:
  num=1
 get_pages(num,url1)
 return num

def get_pages(n,url):
 pages=[]
 for k in range(1,int(n)+1):
  pages.append("{}?page={}".format(url,k))
 dp=pd.DataFrame(pages)
 dp.to_csv("NUM_pages_1.csv",mode="a",encoding='utf_8_sig')
  #函数调用
 for l in pages:
  parse_HTML2(l)
 return pages


# 名字的链接，根据网页源码的标签，确定名字链接的位置
def parse_HTML2(url2):
 try:
  req = requests.get(url2)
  req.encoding = req.apparent_encoding
  soup = BeautifulSoup(req.text)
 except:
  dp=pd.DataFrame(url2)
  dp.to_csv("Error_pages_1.csv",mode="a",encoding='utf_8_sig')
 name_data_l=[]
 error=[]
 li_list = soup.find_all('li',class_="Listing-name pt-15 pb-15 bdb-gray-light w-100pct flex border-highlight")
 try:
  for li in li_list:
   nameList=li.find('a',class_='flex-1')['href']
   name_data_l.append('https://nameberry.com/'+nameList)
   time.sleep(1)
  cun(name_data_l,'Name_List_1')
 except:
  dp=pd.DataFrame(name_data_l)
  dp.to_csv("Error_Name_List_1.csv",mode="a",encoding='utf_8_sig')
  # cun(url2,'Error_link_Q')
 # dp=pd.DataFrame(name_data_l)
 # dp.to_csv("Name_List.csv",mode="a",encoding='utf_8_sig')
 # for i in name_data_l:
 #  parse_HTML3(i)
 return name_data_l

3)获取名字评论的内容，采用字典形式写入文件

# 名字里的内容
def parse_HTML3(url3):
 count=0
 req = requests.get(url3)
 req.encoding = req.apparent_encoding
 soup = BeautifulSoup(req.text)
 error=[]
 try:
  Name=soup.find('h1',class_='first-header').find("a").get_text().replace(",","").replace("\n","")
 except:
  error.append(url3)
  cun(error,"Error_Link_Comment")
 li_list = soup.find_all('div',class_="comment")
 for li in li_list:
  Title=li.find("h4").get_text().replace(",","").replace("\n","")
  Time=li.find("p",class_='meta').get_text().replace(",","").replace("\n","")
  Comments=li.find("div",class_='comment-text').get_text().replace(",","").replace("\n","")
  dic2={
   "Name":Name,
   "Title":Title,
   "Time":Time,
   "Comments":Comments
  }
  time.sleep(1)
  count=count+1
  save_to_csv(dic2,"Name_data_comment")
  print(count)
 return 1

3、测试代码

1)代码编写完成后，具体的函数调用逻辑，获取链接时，为直接的函数嵌套，获取内容时，为从文件中读取出名字链接，在获取名字的评论内容。避免因为逐层访问，造成访问网页超时，出现异常。

如图：

Python爬取网页信息的示例

2)测试结果

Python爬取网页信息的示例

4、小结

在爬取网页内容时，要先分析网页源码，再进行编码和调试，遵从爬虫协议（严重者会被封号），在爬取的数据量非常大时，可以设置顺序部分请求（一部分的进行爬取网页内容）。

总之，爬虫有风险，测试需谨慎！！！

以上就是Python爬取网页信息的示例的详细内容，更多关于Python爬取网页信息的资料请关注三水点靠木其它相关文章！

Python爬取网页信息的示例

- Author -

小高冷

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python函数缺省值与引用学习笔记分享

Feb 10 Python

Python基类函数的重载与调用实例分析

Jan 12 Python

Python实现国外赌场热门游戏Craps（双骰子）

Mar 31 Python

python嵌套函数使用外部函数变量的方法(Python2和Python3)

Jan 31 Python

Python实现快速排序算法及去重的快速排序的简单示例

Jun 26 Python

python在线编译器的简单原理及简单实现代码

Feb 02 Python

高效使用Python字典的清单

Apr 04 Python

python删除本地夹里重复文件的方法

Nov 19 Python

Python selenium键盘鼠标事件实现过程详解

Jul 28 Python

python boto和boto3操作bucket的示例

Oct 30 Python

关于Python3的import问题(pycharm可以运行命令行import错误)

Nov 18 Python

python通过opencv调用摄像头操作实例分析

Jun 07 Python

详解用python -m http.server搭一个简易的本地局域网

Sep 24 #Python

Python中的None与 NULL(即空字符)的区别详解

Sep 24 #Python

python绘制分布折线图的示例

Sep 24 #Python

PyCharm 2020.1版安装破解注册码永久激活(激活到2089年)

Sep 24 #Python

python 如何调用 dubbo 接口

Sep 24 #Python

python matplotlib绘制三维图的示例

Sep 24 #Python

python使用matplotlib:subplot绘制多个子图的示例

Sep 24 #Python

You might like

php中存储用户ID和密码到mysql数据库的方法

2013/02/06 PHP

PHP采用curl模仿用户登陆新浪微博发微博的方法

2014/11/07 PHP

php获取随机数组列表的方法

2014/11/13 PHP

Laravel 数据库加密及数据库表前缀配置方法

2019/10/10 PHP

php设计模式之抽象工厂模式分析【星际争霸游戏案例】

2020/01/23 PHP

javascript下查找父节点的简单方法

2007/08/13 Javascript

利用js实现遮罩以及弹出可移动登录窗口

2013/07/08 Javascript

javascript如何创建表格(javascript绘制表格的二种方法)

2013/12/10 Javascript

js实例属性和原型属性示例详解

2014/11/23 Javascript

深入理解逻辑表达式的用法与或非的用法

2016/06/06 Javascript

Vuejs第一篇之入门教程详解（单向绑定、双向绑定、列表渲染、响应函数）

2016/09/09 Javascript

vue 2.0路由之路由嵌套示例详解

2017/05/08 Javascript

vue 里面使用axios 和封装的示例代码

2017/09/01 Javascript

微信小程序实现图片懒加载的示例代码

2017/12/13 Javascript

js调用设备摄像头的方法

2018/07/19 Javascript

JavaScript Dom实现轮播图原理和实例

2021/02/19 Javascript

[01:33:59]真人秀《加油 DOTA》第六期

2014/09/09 DOTA

python django 原生sql 获取数据的例子

2019/08/14 Python

Python捕获异常堆栈信息的几种方法(小结)

2020/05/18 Python

python中tab键是什么意思

2020/06/18 Python

Keras预训练的ImageNet模型实现分类操作

2020/07/07 Python

详解python UDP 编程

2020/08/24 Python

Jupyter Notebook安装及使用方法解析

2020/11/12 Python

html5 sessionStorage会话存储_动力节点Java学院整理

2017/07/06 HTML / CSS

Myprotein西班牙官网：欧洲第一大运动营养品牌

2020/02/24 全球购物

小学生红领巾广播稿

2014/01/21 职场文书

端午节演讲稿

2014/05/23 职场文书

副总经理党的群众路线教育实践活动个人对照检查材料思想汇报

2014/10/06 职场文书

个人剖析材料及整改措施

2014/10/07 职场文书

导游词之湖州-太湖

2019/10/11 职场文书

62句有关感恩节文案（推荐收藏）

2019/11/28 职场文书

python删除csv文件的行列

2021/04/06 Python

使用qt quick-ListView仿微信好友列表和聊天列表的示例代码

2021/06/13 Python

maven依赖的version声明控制方式

2022/01/18 Java/Android

Python闭包的定义和使用方法

2022/04/11 Python

vue3 自定义图片放大器效果的示例代码

2022/07/23 Vue.js