Python Request爬取seo.chinaz.com百度权重网站的查询结果过程解析


Posted in Python onAugust 13, 2019

一:脚本需求

利用Python3查询网站权重并自动存储在本地数据库(Mysql数据库)中,同时导出一份网站权重查询结果的EXCEL表格

数据库类型:MySql

数据库表单名称:website_weight

表单内容及表头设置:表头包含有id、main_url(即要查询的网站)、website_weight(网站权重)

Python Request爬取seo.chinaz.com百度权重网站的查询结果过程解析

要查询的网站:EXCEL表格

Python Request爬取seo.chinaz.com百度权重网站的查询结果过程解析

二:需求实现

一:利用openpyxl模块解析excel文件,将查询的网站读取到一个列表中保存

# 解析excel文件,取出所有的url
def get_urls(file_path):
 wb = load_workbook(file_path)
 sheet = wb.active
 urls = []
 for cell in list(sheet.columns)[1]:
 if cell != sheet['B1']:
  urls.append(cell.value)
 return wb, urls

二:分析请求发送,伪造请求,取得HTML页面

# 伪造请求,取得html页面
def get_html(url):
 # 定义http的请求Header
 headers = {} 
 # random.randint(1,99) 为了生成1到99之间的随机数,让UserAgent变的不同。
 headers[
 'User-Agent'] = "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537." + str(
 random.randint(1, 99))
 # Referer地址使用待查询的网址
 headers['Referer'] = "http://seo.chinaz.com/" + url + "/"
 html = ''
 try:
 html = requests.get("http://seo.chinaz.com/" + url + "/", headers=headers, timeout=5).text
 except Exception:
 pass
 return html

三:分析HTML页面,利用BeautifulSoup模块提取数据

# 利用BeautifulSoup模块从html页面中提取数据
def get_data(html, url):
 if not html:
 return url, 0
 soup = bs(html, "lxml")
 p_tag = soup.select("p.ReLImgCenter")[0]
 src = p_tag.img.attrs["src"]
 regexp = re.compile(r'^http:.*?(\d).gif')
 br = regexp.findall(src)[0]
 return url, br

四:数据库连接配置,并获取游标

# 连接数据库
def get_connect():
 conn = pymysql.connect(
 host='127.0.0.1',
 port=3306,
 user='root',
 passwd='root',
 db='seotest',
 charset="utf8")
 # 获取游标对象
 cursor = conn.cursor()
 return conn, cursor

五:主程序逻辑编写

if __name__ == "__main__":
 #命令行执行脚本文件,获取excel文件路径
 file_path = sys.argv[1]
 #获取URL列表和excle工作簿
 wb, urls = get_urls(file_path)
 #获取数据库连接和游标
 conn, cursor = get_connect()
 #获取工作簿当前工作sheet
 sheet = wb.active
 #数据库插入语句
 sql_insert = '''insert into website_weight(main_url, website_weight) values (%s, %s)'''
 
 for row, url in enumerate(urls):
 if not url: continue
 html = get_html(url)
 data = get_data(html, url)
 # 插入数据到数据库
 cursor.execute(sql_insert, data)
 # 插入数据到Excel表中
 cell = sheet.cell(row=row + 2, column=3)
 cell.value = data[1]
 # 终端打印插入的数据
 print(data)
 conn.commit()
 conn.close()
 wb.save(file_path)
 wb.close()

# cmd命令:python3 F:\算法与结构\网站权重.py F:\website.xlsx

三:脚本运行及其实现结果

CMD执行

Python Request爬取seo.chinaz.com百度权重网站的查询结果过程解析

数据库:

Python Request爬取seo.chinaz.com百度权重网站的查询结果过程解析

excel文件写入:

Python Request爬取seo.chinaz.com百度权重网站的查询结果过程解析

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python 网络爬虫初级实现代码
Feb 27 Python
使用Python多线程爬虫爬取电影天堂资源
Sep 23 Python
python定向爬取淘宝商品价格
Feb 27 Python
numpy返回array中元素的index方法
Jun 27 Python
对python 数据处理中的LabelEncoder 和 OneHotEncoder详解
Jul 11 Python
用python代码将tiff图片存储到jpg的方法
Dec 04 Python
在python中以相同顺序shuffle两个list的方法
Dec 13 Python
python+selenium+PhantomJS抓取网页动态加载内容
Feb 25 Python
PyCharm GUI界面开发和exe文件生成的实现
Mar 04 Python
解决Keras 自定义层时遇到版本的问题
Jun 16 Python
python 解决selenium 中的 .clear()方法失效问题
Sep 01 Python
详解pycharm自动import所需的库的操作方法
Nov 30 Python
python实现对服务器脚本敏感信息的加密解密功能
Aug 13 #Python
python多线程+代理池爬取天天基金网、股票数据过程解析
Aug 13 #Python
Python字符串处理的8招秘籍(小结)
Aug 13 #Python
python实现批量修改服务器密码的方法
Aug 13 #Python
基于python分析你的上网行为 看看你平时上网都在干嘛
Aug 13 #Python
Python实现微信翻译机器人的方法
Aug 13 #Python
python读写csv文件的方法
Aug 13 #Python
You might like
php的正则处理函数总结分析
2008/06/20 PHP
php中取得URL的根域名的代码
2011/03/23 PHP
Laravel 5框架学习之路由、控制器和视图简介
2015/04/07 PHP
php中curl和soap方式请求服务超时问题的解决
2018/06/11 PHP
TP5框架页面跳转样式操作示例
2020/04/05 PHP
js前台判断开始时间是否小于结束时间
2012/02/23 Javascript
一款jquery特效编写的大度宽屏焦点图切换特效的实例代码
2013/08/05 Javascript
NODE.JS加密模块CRYPTO常用方法介绍
2014/06/05 Javascript
jquery比较简洁的软键盘特效实现方法
2015/03/19 Javascript
详解AngularJS中自定义指令的使用
2015/06/17 Javascript
基于insertBefore制作简单的循环插空效果
2015/09/21 Javascript
javascript下拉列表菜单的实现方法
2015/11/18 Javascript
ES6(ECMAScript 6)新特性之模板字符串用法分析
2017/04/01 Javascript
vue实现表格增删改查效果的实例代码
2017/07/18 Javascript
JS实现的哈夫曼编码示例【原始版与修改版】
2018/04/22 Javascript
微信小程序实现列表页的点赞和取消点赞功能
2018/11/02 Javascript
微信小程序CSS3动画下拉菜单效果
2018/11/04 Javascript
vue两组件间值传递 $router.push实现方法
2019/05/15 Javascript
Vue实现开心消消乐游戏算法
2019/10/22 Javascript
vue 中 elment-ui table合并上下两行相同数据单元格
2019/12/26 Javascript
node crawler如何添加promise支持
2020/02/01 Javascript
解决vue下载后台传过来的乱码流的问题
2020/12/05 Vue.js
浅谈numpy生成数组的零值问题
2018/11/12 Python
python实现比较类的两个instance(对象)是否相等的方法分析
2019/06/26 Python
python监控进程状态,记录重启时间及进程号的实例
2019/07/15 Python
Python如何截图保存的三种方法(小结)
2020/09/01 Python
用html5的canvas画布绘制贝塞尔曲线完整代码
2013/08/14 HTML / CSS
Dillard’s百货官网:Dillards.com
2018/05/26 全球购物
巴西购物网站:Submarino
2020/01/19 全球购物
财务内勤岗位职责
2014/04/17 职场文书
工作说明书范文
2014/05/07 职场文书
职称评定个人总结
2015/03/05 职场文书
2015年大学班长个人工作总结
2015/04/24 职场文书
单位工资证明范本
2015/06/12 职场文书
2015年教务处干事工作总结
2015/07/22 职场文书
Python的代理类实现,控制访问和修改属性的权限你都了解吗
2022/03/21 Python