编程 Python

单身狗福利?Python爬取某婚恋网征婚数据

Posted in Python onJune 03, 2021

目标网址https://www.csflhjw.com/zhenghun/34.html?page=1

一、打开界面

鼠标右键打开检查，方框里为你一个文小姐的征婚信息。。由此判断出为同步加载

单身狗福利?Python爬取某婚恋网征婚数据

点击elements，定位图片地址，方框里为该女士的url地址及图片地址

单身狗福利?Python爬取某婚恋网征婚数据

可以看出该女士的url地址不全，之后在代码中要进行url的拼接，看一下翻页的url地址有什么变化

点击第2页
https://www.csflhjw.com/zhenghun/34.html?page=2

点击第3页
https://www.csflhjw.com/zhenghun/34.html?page=3

可以看出变化在最后
做一下fou循环格式化输出一下。。一共10页

单身狗福利?Python爬取某婚恋网征婚数据

二、代码解析

1.获取所有的女士的url，xpath的路径就不详细说了。。

单身狗福利?Python爬取某婚恋网征婚数据

2.构造每一位女士的url地址

单身狗福利?Python爬取某婚恋网征婚数据

3.然后点开一位女士的url地址，用同样的方法，确定也为同步加载

单身狗福利?Python爬取某婚恋网征婚数据

4.之后就是女士url地址html的xpath提取，每个都打印一下，把不要的过滤一下

单身狗福利?Python爬取某婚恋网征婚数据

5.最后就是文件的保存

单身狗福利?Python爬取某婚恋网征婚数据

打印结果：

单身狗福利?Python爬取某婚恋网征婚数据

三、完整代码

# !/usr/bin/nev python
# -*-coding:utf8-*-

import requests, os, csv
from pprint import pprint
from lxml import etree

def main():
    for i in range(1, 11):
        start_url = 'https://www.csflhjw.com/zhenghun/34.html?page={}'.format(i)

        headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) '
                          'Chrome/87.0.4280.88 Safari/537.36'

        }
        response = requests.get(start_url, headers=headers).content.decode()
        # # pprint(response)
        # 3 解析数据
        html_str = etree.HTML(response)
        info_urls = html_str.xpath(r'//div[@class="e"]/div[@class="e-img"]/a/@href')
        # pprint(info_urls)

        # 4、循环遍历 构造img_info_url
        for info_url in info_urls:
            info_url = r'https://www.csflhjw.com' + info_url
            # print(info_url)
            # 5、对info_url发请求，解析得到img_urls
            response = requests.get(info_url, headers=headers).content.decode()
            html_str = etree.HTML(response)
            # pprint(html_str)
            img_url = 'https://www.csflhjw.com/' + html_str.xpath(r'/html/body/div[4]/div/div[1]/div[2]/div[1]/div['
                                                                r'1]/img/@src')[0]
            # pprint(img_url)
            name = html_str.xpath(r'//div[@class="team-info"]/div[@class="team-e"]/h2/text()')[0]
            # pprint(name)
            xueli = html_str.xpath(r'//div[@class="team-info"]/div[@class="team-e"]/p[1]/text()')[0].split('：')[1]
            # pprint(xueli)
            job = html_str.xpath(r'//div[@class="team-info"]/div[@class="team-e"]/p[2]/text()')[0].split('：')[1]
            # pprint(job)
            marital_status = html_str.xpath(r'//div[@class="team-info"]/div[@class="team-e"]/p[3]/text()')[0].split(
                '：')[1]
            # pprint(marital_status)
            is_child = html_str.xpath(r'//div[@class="team-info"]/div[@class="team-e"]/p[4]/text()')[0].split('：')[1]
            # pprint(is_child)
            home = html_str.xpath(r'//div[@class="team-info"]/div[@class="team-e"]/p[5]/text()')[0].split('：')[1]
            # pprint(home)
            workplace = html_str.xpath(r'//div[@class="team-info"]/div[@class="team-e"]/p[6]/text()')[0].split('：')[1]
            # pprint(workplace)
            requ = html_str.xpath(r'/html/body/div[4]/div/div[1]/div[2]/div[2]/div[2]/p[2]/span/text()')[0].split('：')[1]
            # pprint(requ)
            requ = [requ if requ != str() else '无要求'][0]
            monologue = html_str.xpath(r'//div[@class="hunyin-1-3"]/p/text()')
            # pprint(monologue)
            monologue = [monologue[0].replace(' ', '').replace('\xa0', '') if monologue !=list() else '无'][0]
            # pprint(monologue)
            zeo_age = html_str.xpath(r'/html/body/div[4]/div/div[1]/div[2]/div[2]/div[2]/p[1]/span[1]/text()')[0].split('：')[1]
            zeo_age = [zeo_age if zeo_age!=str() else '无要求'][0]
            # pprint(zeo_age)
            zeo_address = html_str.xpath(r'/html/body/div[4]/div/div[1]/div[2]/div[2]/div[2]/p[1]/span[2]/text()')[0].split('：')[1]
            zeo_address = [zeo_address if zeo_address!=str() else '无要求'][0]
            # pprint(zeo_address)

            if not os.path.exists(r'./{}'.format('妹子信息数据')):
                os.mkdir(r'./{}'.format('妹子信息数据'))
                csv_header = ['姓名', '学历', '职业', '婚姻状况', '有无子女', '是否购房', '工作地点', '择偶年龄', '择偶城市', '择偶要求', '个人独白', '照片链接']
                with open(r'./{}/{}.csv'.format('妹子信息数据', '妹子数据'), 'w', newline='', encoding='gbk') as file_csv:
                    csv_writer_header = csv.DictWriter(file_csv, csv_header)
                    csv_writer_header.writeheader()

            try:
                with open(r'./{}/{}.csv'.format('妹子信息数据', '妹子数据'), 'a+', newline='',
                          encoding='gbk') as file_csv:
                    csv_writer = csv.writer(file_csv, delimiter=',')
                    csv_writer.writerow([name, xueli, job, marital_status, is_child, home, workplace, zeo_age,
                                         zeo_address, requ, monologue, img_url])
                    print(r'***妹子信息数据：{}'.format(name))
            except Exception as e:
                with open(r'./{}/{}.csv'.format('妹子信息数据', '妹子数据'), 'a+', newline='',
                          encoding='utf-8') as file_csv:
                    csv_writer = csv.writer(file_csv, delimiter=',')
                    csv_writer.writerow([name, xueli, job, marital_status, is_child, home, workplace, zeo_age,
                                         zeo_address, requ, monologue, img_url])
                    print(r'***妹子信息数据保存成功：{}'.format(name))



if __name__ == '__main__':
    main()

到此这篇关于单身狗福利？Python爬取某婚恋网征婚数据的文章就介绍到这了,更多相关Python爬取征婚数据内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木！

单身狗福利?Python爬取某婚恋网征婚数据

- Author -

?武亮宇?

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python基于pygame实现响应游戏中事件的方法(附源码)

Nov 11 Python

python嵌套字典比较值与取值的实现示例

Nov 03 Python

python如何实现一个刷网页小程序

Nov 27 Python

python分批定量读取文件内容,输出到不同文件中的方法

Dec 08 Python

浅谈python函数调用返回两个或多个变量的方法

Jan 23 Python

详解如何设置Python环境变量？

May 13 Python

树莓派使用python-librtmp实现rtmp推流h264的方法

Jul 22 Python

Python FTP文件定时自动下载实现过程解析

Nov 12 Python

Win系统PyQt5安装和使用教程

Dec 25 Python

使用Django实现把两个模型类的数据聚合在一起

Mar 28 Python

利用python绘制中国地图（含省界、河流等）

Sep 21 Python

python 对一幅灰度图像进行直方图均衡化

Oct 27 Python

告别网页搜索!教你用python实现一款属于自己的翻译词典软件

Python 中random 库的详细使用

Jun 03 #Python

详解Python常用的魔法方法

Python自动化之批量处理工作簿和工作表

Jun 03 #Python

Jupyter Notebook内使用argparse报错的解决方案

Python实现机器学习算法的分类

Jupyter Notebook 如何修改字体和大小以及更改字体样式

You might like

通过JavaScript或PHP检测Android设备的代码

2011/03/09 PHP

PHP imagecreatefrombmp 从BMP文件或URL新建一图像

2012/07/16 PHP

PHP删除数组中空值的方法介绍

2014/04/14 PHP

CodeIgniter框架URL路由总结

2014/09/03 PHP

php发送邮件的问题详解

2015/06/22 PHP

php实现数组中索引关联数据转换成json对象的方法

2015/07/08 PHP

PHP网站建设的流程与步骤分享

2015/09/25 PHP

PHP strcmp()和strcasecmp()的区别实例

2016/11/05 PHP

php处理抢购类功能的高并发请求

2018/02/08 PHP

PHP INT类型在内存中占字节详解

2019/07/20 PHP

thinkphp 框架数据库切换实现方法分析

2020/05/18 PHP

通过MSXML2自动获取QQ个人头像及在线情况(给初学者)

2007/01/22 Javascript

类似CSDN图片切换效果脚本

2009/09/17 Javascript

javascript preload&lazy load

2010/05/13 Javascript

Javascript Object.extend

2010/05/18 Javascript

增强用户体验友好性之jquery easyui window 窗口关闭时的提示

2012/06/22 Javascript

回车直接实现点击某按钮的效果即触发单击事件

2014/02/27 Javascript

使用JS获取当前地理位置方法汇总

2014/12/18 Javascript

WEB前端开发都应知道的jquery小技巧及jquery三个简写

2015/11/15 Javascript

JavaScript实现页面定时刷新（定时器，meta）

2016/10/12 Javascript

jQuery实现所有验证通过方可提交的表单验证

2017/11/21 jQuery

基于vue-cli创建的项目的目录结构及说明介绍

2017/11/23 Javascript

微信小程序获取用户绑定手机号方法示例

2019/07/21 Javascript

Javascript 类型转换、封闭函数及常见内置对象操作示例

2019/11/15 Javascript

Python中的XML库4Suite Server的介绍

2015/04/14 Python

Python基础语言学习笔记总结（精华）

2017/11/14 Python

使用PIL(Python-Imaging)反转图像的颜色方法

2019/01/24 Python

python设置环境变量的作用整理

2020/02/17 Python

python连接mysql有哪些方法

2020/06/24 Python

html5的画布canvas——画出简单的矩形、三角形实例代码

2013/06/09 HTML / CSS

俄罗斯EPL钻石珠宝店：ЭПЛ

2019/10/22 全球购物

小学开学寄语

2014/01/19 职场文书

《画》教学反思

2014/04/14 职场文书

大学生志愿者活动总结

2014/06/27 职场文书

党员干部对十八届四中全会的期盼

2014/10/17 职场文书

试用期工作表现自我评价

2015/03/06 职场文书