Python的Django框架中的select_related函数对QuerySet 查询的优化


Posted in Python onApril 01, 2015

1. 实例的背景说明

假定一个个人信息系统,需要记录系统中各个人的故乡、居住地、以及到过的城市。数据库设计如下:

Python的Django框架中的select_related函数对QuerySet 查询的优化

Models.py 内容如下:

from django.db import models
 
class Province(models.Model):
  name = models.CharField(max_length=10)
  def __unicode__(self):
    return self.name
 
class City(models.Model):
  name = models.CharField(max_length=5)
  province = models.ForeignKey(Province)
  def __unicode__(self):
    return self.name
 
class Person(models.Model):
  firstname = models.CharField(max_length=10)
  lastname  = models.CharField(max_length=10)
  visitation = models.ManyToManyField(City, related_name = "visitor")
  hometown  = models.ForeignKey(City, related_name = "birth")
  living   = models.ForeignKey(City, related_name = "citizen")
  def __unicode__(self):
    return self.firstname + self.lastname

注1:创建的app名为“QSOptimize”

注2:为了简化起见,`qsoptimize_province` 表中只有2条数据:湖北省和广东省,`qsoptimize_city`表中只有三条数据:武汉市、十堰市和广州市
2. select_related()

对于一对一字段(OneToOneField)和外键字段(ForeignKey),可以使用select_related 来对QuerySet进行优化
作用和方法

在对QuerySet使用select_related()函数后,Django会获取相应外键对应的对象,从而在之后需要的时候不必再查询数据库了。以上例说明,如果我们需要打印数据库中的所有市及其所属省份,最直接的做法是:
 

>>> citys = City.objects.all()
>>> for c in citys:
...  print c.province
...

这样会导致线性的SQL查询,如果对象数量n太多,每个对象中有k个外键字段的话,就会导致n*k+1次SQL查询。在本例中,因为有3个city对象就导致了4次SQL查询:
 

SELECT `QSOptimize_city`.`id`, `QSOptimize_city`.`name`, `QSOptimize_city`.`province_id`
FROM `QSOptimize_city`
 
SELECT `QSOptimize_province`.`id`, `QSOptimize_province`.`name`
FROM `QSOptimize_province`
WHERE `QSOptimize_province`.`id` = 1 ;
 
SELECT `QSOptimize_province`.`id`, `QSOptimize_province`.`name`
FROM `QSOptimize_province`
WHERE `QSOptimize_province`.`id` = 2 ;
 
SELECT `QSOptimize_province`.`id`, `QSOptimize_province`.`name`
FROM `QSOptimize_province`
WHERE `QSOptimize_province`.`id` = 1 ;

注:这里的SQL语句是直接从Django的logger:‘django.db.backends'输出出来的

如果我们使用select_related()函数:
 

>>> citys = City.objects.select_related().all()
>>> for c in citys:
...  print c.province
...

就只有一次SQL查询,显然大大减少了SQL查询的次数:
 

SELECT `QSOptimize_city`.`id`, `QSOptimize_city`.`name`,
`QSOptimize_city`.`province_id`, `QSOptimize_province`.`id`, `QSOptimize_province`.`name`
FROM`QSOptimize_city`
INNER JOIN `QSOptimize_province` ON (`QSOptimize_city`.`province_id` = `QSOptimize_province`.`id`) ;

这里我们可以看到,Django使用了INNER JOIN来获得省份的信息。顺便一提这条SQL查询得到的结果如下:
 

+----+-----------+-------------+----+-----------+
| id | name   | province_id | id | name   |
+----+-----------+-------------+----+-----------+
| 1 | 武汉市  |      1 | 1 | 湖北省  |
| 2 | 广州市  |      2 | 2 | 广东省  |
| 3 | 十堰市  |      1 | 1 | 湖北省  |
+----+-----------+-------------+----+-----------+
3 rows in set (0.00 sec)

 
使用方法
函数支持如下三种用法:
*fields 参数

select_related() 接受可变长参数,每个参数是需要获取的外键(父表的内容)的字段名,以及外键的外键的字段名、外键的外键的外键…。若要选择外键的外键需要使用两个下划线“__”来连接。

例如我们要获得张三的现居省份,可以用如下方式:
 

>>> zhangs = Person.objects.select_related('living__province').get(firstname=u"张",lastname=u"三")
>>> zhangs.living.province

触发的SQL查询如下:
 

SELECT `QSOptimize_person`.`id`, `QSOptimize_person`.`firstname`,
`QSOptimize_person`.`lastname`, `QSOptimize_person`.`hometown_id`, `QSOptimize_person`.`living_id`,
`QSOptimize_city`.`id`, `QSOptimize_city`.`name`, `QSOptimize_city`.`province_id`, `QSOptimize_province`.`id`,
`QSOptimize_province`.`name`
FROM `QSOptimize_person`
INNER JOIN `QSOptimize_city` ON (`QSOptimize_person`.`living_id` = `QSOptimize_city`.`id`)
INNER JOIN `QSOptimize_province` ON (`QSOptimize_city`.`province_id` = `QSOptimize_province`.`id`)
WHERE (`QSOptimize_person`.`lastname` = '三' AND `QSOptimize_person`.`firstname` = '张' );

可以看到,Django使用了2次 INNER JOIN 来完成请求,获得了city表和province表的内容并添加到结果表的相应列,这样在调用 zhangs.living的时候也不必再次进行SQL查询。
 

+----+-----------+----------+-------------+-----------+----+-----------+-------------+----+-----------+
| id | firstname | lastname | hometown_id | living_id | id | name   | province_id | id | name   |
+----+-----------+----------+-------------+-----------+----+-----------+-------------+----+-----------+
| 1 | 张    | 三    |      3 |     1 | 1 | 武汉市  |  1     | 1 | 湖北省  |
+----+-----------+----------+-------------+-----------+----+-----------+-------------+----+-----------+
1 row in set (0.00 sec)

然而,未指定的外键则不会被添加到结果中。这时候如果需要获取张三的故乡就会进行SQL查询了:
 

>>> zhangs.hometown.province
 
SELECT `QSOptimize_city`.`id`, `QSOptimize_city`.`name`,
`QSOptimize_city`.`province_id`
FROM `QSOptimize_city`
WHERE `QSOptimize_city`.`id` = 3 ;
 
SELECT `QSOptimize_province`.`id`, `QSOptimize_province`.`name`
FROM `QSOptimize_province`
WHERE `QSOptimize_province`.`id` = 1

同时,如果不指定外键,就会进行两次查询。如果深度更深,查询的次数更多。

值得一提的是,从Django 1.7开始,select_related()函数的作用方式改变了。在本例中,如果要同时获得张三的故乡和现居地的省份,在1.7以前你只能这样做:
 

>>> zhangs = Person.objects.select_related('hometown__province','living__province').get(firstname=u"张",lastname=u"三")
>>> zhangs.hometown.province
>>> zhangs.living.province

但是1.7及以上版本,你可以像和queryset的其他函数一样进行链式操作:
 

>>> zhangs = Person.objects.select_related('hometown__province').select_related('living__province').get(firstname=u"张",lastname=u"三")
>>> zhangs.hometown.province
>>> zhangs.living.province

如果你在1.7以下版本这样做了,你只会获得最后一个操作的结果,在本例中就是只有现居地而没有故乡。在你打印故乡省份的时候就会造成两次SQL查询。
depth 参数

select_related() 接受depth参数,depth参数可以确定select_related的深度。Django会递归遍历指定深度内的所有的OneToOneField和ForeignKey。以本例说明:
 

>>> zhangs = Person.objects.select_related(depth = d)

d=1  相当于 select_related(‘hometown','living')

d=2  相当于 select_related(‘hometown__province','living__province')
无参数

select_related() 也可以不加参数,这样表示要求Django尽可能深的select_related。例如:zhangs = Person.objects.select_related().get(firstname=u”张”,lastname=u”三”)。但要注意两点:

    Django本身内置一个上限,对于特别复杂的表关系,Django可能在你不知道的某处跳出递归,从而与你想的做法不一样。具体限制是怎么工作的我表示不清楚。
    Django并不知道你实际要用的字段有哪些,所以会把所有的字段都抓进来,从而会造成不必要的浪费而影响性能。

 
小结

  1.     select_related主要针一对一和多对一关系进行优化。
  2.     select_related使用SQL的JOIN语句进行优化,通过减少SQL查询的次数来进行优化、提高性能。
  3.     可以通过可变长参数指定需要select_related的字段名。也可以通过使用双下划线“__”连接字段名来实现指定的递归查询。没有指定的字段不会缓存,没有指定的深度不会缓存,如果要访问的话Django会再次进行SQL查询。
  4.     也可以通过depth参数指定递归的深度,Django会自动缓存指定深度内所有的字段。如果要访问指定深度外的字段,Django会再次进行SQL查询。
  5.     也接受无参数的调用,Django会尽可能深的递归查询所有的字段。但注意有Django递归的限制和性能的浪费。
  6.     Django >= 1.7,链式调用的select_related相当于使用可变长参数。Django < 1.7,链式调用会导致前边的select_related失效,只保留最后一个。

Python 相关文章推荐
Python实现批量下载图片的方法
Jul 08 Python
浅谈Python中chr、unichr、ord字符函数之间的对比
Jun 16 Python
Python socket网络编程TCP/IP服务器与客户端通信
Jan 05 Python
Python cookbook(字符串与文本)针对任意多的分隔符拆分字符串操作示例
Apr 19 Python
使用python画个小猪佩奇的示例代码
Jun 06 Python
DRF跨域后端解决之django-cors-headers的使用
Jan 27 Python
基于python实现百度翻译功能
May 09 Python
python elasticsearch从创建索引到写入数据的全过程
Aug 04 Python
python GUI库图形界面开发之PyQt5树形结构控件QTreeWidget详细使用方法与实例
Mar 02 Python
python实现FTP文件传输的方法(服务器端和客户端)
Mar 20 Python
Pytorch高阶OP操作where,gather原理
Apr 30 Python
Python使用re模块验证危险字符
May 21 Python
简单的Python2.7编程初学经验总结
Apr 01 #Python
极简的Python入门指引
Apr 01 #Python
分析在Python中何种情况下需要使用断言
Apr 01 #Python
用Python制作简单的朴素基数估计器的教程
Apr 01 #Python
简单的编程0基础下Python入门指引
Apr 01 #Python
python查找目录下指定扩展名的文件实例
Apr 01 #Python
Python利用多进程将大量数据放入有限内存的教程
Apr 01 #Python
You might like
php继承中方法重载(覆盖)的应用场合
2015/02/09 PHP
PHP中快速生成随机密码的几种方式
2017/04/17 PHP
浅析PHP数据导出知识点
2018/02/17 PHP
Aster vs Newbee BO5 第二场2.19
2021/03/10 DOTA
javascript 贪吃蛇实现代码
2008/11/22 Javascript
JQuery教学之性能优化
2014/05/14 Javascript
Javascript aop(面向切面编程)之around(环绕)分析
2015/05/01 Javascript
javascript图片延迟加载实现方法及思路
2015/12/31 Javascript
基于jquery实现最简单的选项卡切换效果
2016/05/08 Javascript
微信小程序中顶部导航栏的实现代码
2017/03/30 Javascript
深入理解Webpack 中路径的配置
2017/06/17 Javascript
JavaScript 正则命名分组【推荐】
2018/06/07 Javascript
Vue一个案例引发的递归组件的使用详解
2018/11/15 Javascript
原生JavaScript实现留言板
2021/01/10 Javascript
[51:17]Mineski vs Secret 2019国际邀请赛淘汰赛 败者组 BO3 第一场 8.22
2019/09/05 DOTA
在Mac OS上使用mod_wsgi连接Python与Apache服务器
2015/12/24 Python
Python中的os.path路径模块中的操作方法总结
2016/07/07 Python
利用python爬取散文网的文章实例教程
2017/06/18 Python
Python使用wget实现下载网络文件功能示例
2018/05/31 Python
python调用百度语音识别api
2018/08/30 Python
python 对类的成员函数开启线程的方法
2019/01/22 Python
python接口调用已训练好的caffe模型测试分类方法
2019/08/26 Python
python pptx复制指定页的ppt教程
2020/02/14 Python
Python装饰器实现方法及应用场景详解
2020/03/26 Python
python 装饰器重要在哪
2021/02/14 Python
CSS3制作漂亮的照片墙的实现代码
2016/06/08 HTML / CSS
Speedo速比涛中国官方网站:全球领先泳装运动品牌
2018/04/24 全球购物
意大利在线药房:Farmacia Loreto Gallo
2019/08/09 全球购物
下列程序在32位linux或unix中的结果是什么
2014/03/25 面试题
测试时代收集的软件测试面试题
2013/09/25 面试题
工作时间擅自离岗检讨书
2014/10/24 职场文书
设备技术员岗位职责
2015/04/11 职场文书
确保工程质量承诺书
2015/04/29 职场文书
2015年“公民道德宣传日”活动方案
2015/05/06 职场文书
2015年中学校长工作总结
2015/05/19 职场文书
Feign调用传输文件异常的解决
2021/06/24 Java/Android