编程 Python

Python常用爬虫代码总结方便查询

Posted in Python onFebruary 25, 2019

beautifulsoup解析页面

from bs4 import BeautifulSoup
soup = BeautifulSoup(htmltxt, "lxml")
# 三种装载器
soup = BeautifulSoup("<a></p>", "html.parser")
### 只有起始标签的会自动补全，只有结束标签的会自动忽略
### 结果为：<a></a>
soup = BeautifulSoup("<a></p>", "lxml")
### 结果为：<html><body><a></a></body></html>
soup = BeautifulSoup("<a></p>", "html5lib")
### html5lib则出现一般的标签都会自动补全
### 结果为：<html><head></head><body><a><p></p></a></body></html>
# 根据标签名、id、class、属性等查找标签
### 根据class、id、以及属性alog-action的值和标签类别查询
soup.find("a",class_="title",id="t1",attrs={"alog-action": "qb-ask-uname"}))
### 查询标签内某属性的值
pubtime = soup.find("meta",attrs={"itemprop":"datePublished"}).attrs['content']
### 获取所有class为title的标签
for i in soup.find_all(class_="title"):
  print(i.get_text())
### 获取特定数量的class为title的标签
for i in soup.find_all(class_="title",limit = 2):
  print(i.get_text())
### 获取文本内容时可以指定不同标签之间的分隔符，也可以选择是否去掉前后的空白。
soup = BeautifulSoup('<p class="title" id="p1"><b> The Dormouses story </b></p><p class="title" id="p1"><b>The Dormouses story</b></p>', "html5lib")
soup.find(class_="title").get_text("|", strip=True)
#结果为：The Dormouses story|The Dormouses story
### 获取class为title的p标签的id
soup.find(class_="title").get("id")
### 对class名称正则：
soup.find_all(class_=re.compile("tit"))
### recursive参数，recursive=False时，只find当前标签的第一级子标签的数据
soup = BeautifulSoup('<html><head><title>abc','lxml')
soup.html.find_all("title", recursive=False)

unicode编码转中文

content = "\u65f6\u75c7\u5b85"
content = content.encode("utf8","ignore").decode('unicode_escape')

url encode的解码与解码

from urllib import parse
# 编码
x = "中国你好"
y = parse.quote(x)
print(y)
# 解码
x = parse.unquote(y)
print(x)

html转义字符的解码

from html.parser import HTMLParser
htmls = "<div><p>"
txt = HTMLParser().unescape(htmls)
print(txt)  . # 输出<div><p>

base64的编码与解码

import base64
# 编码
content = "测试转码文本123"
contents_base64 = base64.b64encode(content.encode('utf-8','ignore')).decode("utf-8")
# 解码
contents = base64.b64decode(contents_base64)

过滤emoji表情

def filter_emoji(desstr,restr=''):
    try:
      co = re.compile(u'[\U00010000-\U0010ffff]')
    except re.error:
      co = re.compile(u'[\uD800-\uDBFF][\uDC00-\uDFFF]')
    return co.sub(restr, desstr)

完全过滤script和style标签

import requests
from bs4 import BeautifulSoup
soup = BeautifulSoup(htmls, "lxml")
for script in soup(["script", "style"]):  
  script.extract()
print(soup)

过滤html的标签，但保留标签里的内容

import re
htmls = "<p>abc</p>"
dr = re.compile(r'<[^>]+>',re.S)
htmls2 = dr.sub('',htmls)
print(htmls2)  #abc
正则提取内容（一般处理json）
rollback({
 "response": {
 "code": "0",
 "msg": "Success",
 "dext": ""
 },
 "data": {
 "count": 3,
 "page": 1,
 "article_info": [{
  "title": "“小库里”：适应比赛是首要任务 投篮终会找到节奏",
  "url": "http:\/\/sports.qq.com\/a\/20180704\/035378.htm",
  "time": "2018-07-04 16:58:36",
  "column": "NBA",
  "img": "",
  "desc": ""
 }, {
  "title": "首钢体育助力国家冰球集训队 中国冰球联赛年底启动",
  "url": "http:\/\/sports.qq.com\/a\/20180704\/034698.htm",
  "time": "2018-07-04 16:34:44",
  "column": "综合体育",
  "img": "",
  "desc": ""
 }...]
 }
})
import re
# 提取这个json中的每条新闻的title、url
# (.*?)为要提取的内容，可以在正则字符串中加入.*？表示中间省略若干字符
reg_str = r'"title":"(.*?)",.*?"url":"(.*?)"'
pattern = re.compile(reg_str,re.DOTALL)
items = re.findall(pattern,htmls)
for i in items:
  tilte = i[0]
  url = i[1]

时间操作

# 获取当前日期
today = datetime.date.today()
print(today)   #2018-07-05
# 获取当前时间并格式化
time_now = time.strftime("%Y-%m-%d %H:%M:%S",time.localtime(time.time()))
print(time_now)   #2018-07-05 14:20:55
# 对时间戳格式化
a = 1502691655
time_a = time.strftime("%Y-%m-%d %H:%M:%S", time.localtime(int(a))) 
print(time_a)    #2017-08-14 14:20:55
# 字符串转为datetime类型
str = "2018-07-01 00:00:00"
datetime.datetime.strptime(st, "%Y-%m-%d %H:%M:%S")
# 将时间转化为时间戳
time_line = "2018-07-16 10:38:50"
time_tuple = time.strptime(time_line, "%Y-%m-%d %H:%M:%S")
time_line2 = int(time.mktime(time_tuple))
# 明天的日期
today = datetime.date.today()
tomorrow = today + datetime.timedelta(days=1)
print(tomorrow)   #2018-07-06
# 三天前的时间
today = datetime.datetime.today()
tomorrow = today + datetime.timedelta(days=-3)
print(tomorrow)   #2018-07-02 13:37:00.107703
# 计算时间差
start = "2018-07-03 00:00:00"
time_now = datetime.datetime.now()
b = datetime.datetime.strptime(start,'%Y-%m-%d %H:%M:%S')
minutes = (time_now-b).seconds/60
days = (time_now-b).days
all_minutes = days*24*60+minutes
print(minutes)   #821.7666666666667
print(days)   #2
print(all_minutes)   #3701.7666666666664

数据库操作

import pymysql
conn = pymysql.connect(host='10.0.8.81', port=3306, user='root', passwd='root',db='xxx', charset='utf8')
cur = conn.cursor()
insert_sql = "insert into tbl_name(id,name,age) values(%s,%s,%s)
id = 1
name = "like"
age = 26
data_list = []
data = (id,name,age)
# 单条插入
cur.execute(insert_sql,data)
conn.commit()
# 批量插入
data_list.append(data)
cur.executemany(insert_sql,data_list)
conn.commit()
#特殊字符处理(name中含有特殊字符)
data = (id,pymysql.escape_string(name),age)
#更新
update_sql = "update tbl_name set content = '%s' where id = "+str(id)
cur.execute(update_sql%(pymysql.escape_string(content)))
conn.commit()
#批量更新
update_sql = "UPDATE tbl_recieve SET content = %s ,title = %s , is_spider = %s WHERE id = %s"
update_data = (contents,title,is_spider,one_new[0])
update_data_list.append(update_data)
if len(update_data_list) > 500:
try:
  cur.executemany(update_sql,update_data_list) 
  conn.commit()

总结

以上就是这篇文章的全部内容了，希望本文的内容对大家的学习或者工作具有一定的参考学习价值，谢谢大家对三水点靠木的支持。如果你想了解更多相关内容请查看下面相关链接

Python常用爬虫代码总结方便查询

- Author -

Lee_Tech

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python过滤函数filter()使用自定义函数过滤序列实例

Aug 26 Python

Python脚本实现集群检测和管理功能

Mar 06 Python

Python多线程编程（二）：启动线程的两种方法

Apr 05 Python

详解Django通用视图中的函数包装

Jul 21 Python

python实现mysql的单引号字符串过滤方法

Nov 14 Python

Python实现新浪博客备份的方法

Apr 27 Python

Python使用正则表达式获取网页中所需要的信息

Jan 29 Python

mac安装pytorch及系统的numpy更新方法

Jul 26 Python

CentOS7安装Python3的教程详解

Apr 10 Python

如何用Python制作微信好友个性签名词云图

Jun 28 Python

对Pytorch中nn.ModuleList 和 nn.Sequential详解

Aug 18 Python

flask框架配置mysql数据库操作详解

Nov 29 Python

Python使用paramiko操作linux的方法讲解

Feb 25 #Python

详解Django中CBV(Class Base Views)模型源码分析

Feb 25 #Python

Python判断对象是否相等及eq函数的讲解

Feb 25 #Python

详解django中url路由配置及渲染方式

Feb 25 #Python

利用python脚本如何简化jar操作命令

Feb 24 #Python

Python中如何使用if语句处理列表实例代码

Feb 24 #Python

python实现两张图片的像素融合

Feb 23 #Python

You might like

PHP删除数组中特定元素的两种方法

2013/07/02 PHP

PHP通过插入mysql数据来实现多机互锁实例

2014/11/05 PHP

PHP魔术方法使用方法汇总

2016/02/14 PHP

PHP上传图片时判断上传文件是否为可用图片的方法

2016/10/20 PHP

网页自动跳转代码收集

2009/09/27 Javascript

基于jQuery的合并表格中相同文本的相邻单元格的代码

2011/04/06 Javascript

JavaScript 匿名函数（anonymous function）与闭包（closure）

2011/10/04 Javascript

jquery插件制作表单验证实现代码

2012/08/17 Javascript

浅谈javascript六种数据类型以及特殊注意点

2013/12/20 Javascript

浅谈javascript 函数内部属性

2015/01/21 Javascript

深入探讨JavaScript String对象

2015/03/09 Javascript

Javascript中的getUTCHours()方法使用详解

2015/06/10 Javascript

AngularJS中的$watch()，$digest()和$apply()区分

2016/04/04 Javascript

AngularJs 弹出模态框（model）

2016/04/07 Javascript

JavaScript设计模式开发中组合模式的使用教程

2016/05/18 Javascript

Vue.js仿微信聊天窗口展示组件功能

2017/08/11 Javascript

vue实现父子组件之间的通信以及兄弟组件的通信功能示例

2019/01/29 Javascript

Element-ui自定义table表头、修改列标题样式、添加tooltip、:render-header使用

2019/04/11 Javascript

微信小程序如何刷新当前界面的实现方法

2019/06/07 Javascript

layui radio点击事件实现input显示和隐藏的例子

2019/09/02 Javascript

[06:14]《辉夜杯》外卡赛附加赛 4支战队巡礼

2015/10/23 DOTA

[02:44]完美大师赛主赛事淘汰赛第二日观众采访

2017/11/24 DOTA

Python struct模块解析

2014/06/12 Python

python编写Logistic逻辑回归

2020/12/30 Python

Python Json序列化与反序列化的示例

2018/01/31 Python

Dlib+OpenCV深度学习人脸识别的方法示例

2019/05/14 Python

Python实现结构体代码实例

2020/02/10 Python

python实现音乐播放器 python实现花框音乐盒子

2020/02/25 Python

python3 sleep 延时秒毫秒实例

2020/05/04 Python

HTML5 本地存储和内容按需加载的思路和方法

2011/04/07 HTML / CSS

马来西亚与新加坡长途巴士售票网站：BusOnlineTicket.com

2018/11/05 全球购物

视光学专业毕业生推荐信

2013/10/28 职场文书

高中自我鉴定

2013/12/20 职场文书

小学领导班子对照材料

2014/08/23 职场文书

2014年扫黄打非工作总结

2014/12/03 职场文书

典型事迹材料范文

2014/12/29 职场文书