pymongo中聚合查询的使用方法


Posted in Python onMarch 22, 2019

前言

在使用mongo数据库时,简单的查询基本上可以满足大多数的业务场景,但是试想一下,如果要统计某一荐在指定的数据中出现了多少次该怎么查询呢?笨的方法是使用find 将数据查询出来,再使用count() 方法进行数据统计,这个场景还好,但是如果要求其中某个字段的和呢?是不是就非得遍历出相应的数据然后再进行求和运算呢?

在mysql中我们经常会用到count、group by 等查询,在mongodb中我们也可以使用聚合查询。

假设有这样的一组数据

pymongo中聚合查询的使用方法
价格

里面记录了每种水果的价格,现在我要统计一下,各种水果在这张表中出现的次数,如果不用聚合查询的话,思路应该是这样,先把表中所有的数据都取出来,然后初始化一个字典,然后再遍历每一行的数据,获取它的fName ,然后再更新字典中的计数,这种方法的时间复杂度是O(N)的,如果数据量很大的话不是很好,下面来看一下使用聚合是怎么查询的。

聚合查询使用的是aggregate函数,它的参数是 pipeline 管道,管道的概念是用于将当前命令的输出结果作为下一个命令的参数,管道是有顺序的,比如通过第一个管道操作以后没有符合的数据那么之后的管道操作也就不会有输入,所以一定得要注意管道操作的顺序。由于对于上述问题,我们要的是所的数据统计,所以这里就不需要$match了

from pymongo import MongoClient

client = MongoClient(host=['%s:%s'%(mongoDBhost,mongoDBport)])
G_mongo = client[mongoDBname]['FruitPrice']

pipeline = [
 {'$group': {'_id': "$fName", 'count': {'$sum': 1}}},
 ]
for i in G_mongo['test'].aggregate(pipeline):
 print i

数据大家可以自已构造,这里主要是看aggregate的用法。
得到的结果是

{u'count': 8, u'_id': u'banana'}
{u'count': 9, u'_id': u'pear'}
{u'count': 14, u'_id': u'apple'}

可以看到,一步操作就可以得到相应的统计了。

如果想要获取价格在50以上的各种统计呢?

这时有pipeline应该再$group 之前加上$match 操作

pipeline = [
 {'$match':{'price':{'$gte':50}}},
 {'$group': {'_id': "$fName", 'count': {'$sum': 1}}},
 ]

一定要注意顺序

$match里的条件其实就和使用find函数里是一样的。

下面重点来说说$group操作,group意为分组,指数据根据哪个字段进行分组,上面使用的{'$group': {'_id': "$fName", 'count': {'$sum': 1},_id为所要分的组,这里是以fName字段分的,后面的'count': {'$sum': 1},这里的$sum就是求和的意思,后面的值是1,也就是说每出现一次就加1,这样就能达到计数的目的了,如果要计算价格 price 的和,那么这里就应该写成这样

{'$group': {'_id': "$fName", 'count': {'$sum': '$price'}}}

注意这里的字段要有$ 的,如果我想要求价格的平均值呢?也就是先要求出价格的总数,再除以商品的个数,但是这里有一个$avg 操作

pipeline = [
 {'$match':{'price':{'$gte':50}}},
 {'$group': {'_id': "$fName", 'avg': {'$avg': '$price'}}},
 ]

得到的结果

{u'_id': u'banana', u'avg': 66.200000000000003}
{u'_id': u'pear', u'avg': 77.0}
{u'_id': u'apple', u'avg': 74.0}

类似于$ave的操作还有很多,比较常用的是$min(求最小值),$max(求最大值)

pipeline = [
 {'$match':{'price':{'$gte':50}}},
 {'$group': {'_id': "$fName",
  'count':{'$sum':1},
  'priceAll':{'$sum':'$price'},
  'avg': {'$avg': '$price'},
  'min': {'$min':'$price'},
  'max': {'$max':'$price'}
  }
 },
 ]
for i in G_mongo['test'].aggregate(pipeline):
 print i

所有支持的操作可以参考官方文档:group 支持的操作

以哪个字段进行分组时必须使用_id。

接下来看一下多键分组。

以上在使用group 进行分组查询的时候,用到的_id都是单一字段,比如我的数据库中有如下数据

pymongo中聚合查询的使用方法
带用户的数据

带有一个user 字段了,那如果我要根据user和fName进行分组该如何操作呢?
这里可以传一个字典进去

pipeline = [
 {'$match':{'price':{'$gte':50}}},
 {'$group': {'_id': {'fName':'$fName','user':'$user'},
  'count':{'$sum':1},
  'priceAll':{'$sum':'$price'},
  'avg': {'$avg': '$price'},
  'min': {'$min':'$price'},
  'max': {'$max':'$price'}
  }
 },
 ]
for i in G_mongo['test2'].aggregate(pipeline):
 print i

得到的结果如下:

{u'count': 1, u'avg': 93.0, u'min': 93, u'max': 93, u'_id': {u'user': u'fanjieying', u'fName': u'pear'}, u'priceAll': 93}
{u'count': 2, u'avg': 88.0, u'min': 87, u'max': 89, u'_id': {u'user': u'yangyanxing', u'fName': u'banana'}, u'priceAll': 176}
{u'count': 2, u'avg': 70.0, u'min': 69, u'max': 71, u'_id': {u'user': u'yangyanxing', u'fName': u'pear'}, u'priceAll': 140}
{u'count': 2, u'avg': 65.5, u'min': 58, u'max': 73, u'_id': {u'user': u'fanjieying', u'fName': u'banana'}, u'priceAll': 131}
{u'count': 3, u'avg': 92.333333333333329, u'min': 86, u'max': 97, u'_id': {u'user': u'fantuan', u'fName': u'banana'}, u'priceAll': 277}
{u'count': 2, u'avg': 78.5, u'min': 73, u'max': 84, u'_id': {u'user': u'yangyanxing', u'fName': u'apple'}, u'priceAll': 157}
{u'count': 3, u'avg': 56.666666666666664, u'min': 51, u'max': 60, u'_id': {u'user': u'fantuan', u'fName': u'pear'}, u'priceAll': 170}
{u'count': 2, u'avg': 81.5, u'min': 73, u'max': 90, u'_id': {u'user': u'fanjieying', u'fName': u'apple'}, u'priceAll': 163}
{u'count': 2, u'avg': 69.5, u'min': 53, u'max': 86, u'_id': {u'user': u'fantuan', u'fName': u'apple'}, u'priceAll': 139}

这里的结果显示出每个用户买了哪个商品,一共花了多少钱,最大最小平均值等都可以一次性的展示了,如果要是使用for循环自已遍历的话这种时间复杂度相当高。

这里只是简单的说了下$group和$match 的用法,聚合查询支持很多种操作(称为stages),可以通官方文档进行查看
pymongo 中pipeline中的stages

参考文章

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家对三水点靠木的支持。

Python 相关文章推荐
Python 拷贝对象(深拷贝deepcopy与浅拷贝copy)
Sep 06 Python
理解Python中的With语句
Feb 02 Python
python基于Tkinter库实现简单文本编辑器实例
May 05 Python
Python IDLE 错误:IDLE''s subprocess didn''t make connection 的解决方案
Feb 13 Python
python 字典中取值的两种方法小结
Aug 02 Python
利用Python如何实现一个小说网站雏形
Nov 23 Python
一行Python代码制作动态二维码的实现
Sep 09 Python
Python API自动化框架总结
Nov 12 Python
python ctypes库2_指定参数类型和返回类型详解
Nov 19 Python
python中的subprocess.Popen()使用详解
Dec 25 Python
python 字符串的驻留机制及优缺点
Jun 19 Python
解决Python 函数声明先后顺序出现的问题
Sep 02 Python
OpenCV HSV颜色识别及HSV基本颜色分量范围
Mar 22 #Python
基于OpenCV python3实现证件照换背景的方法
Mar 22 #Python
详解Python给照片换底色(蓝底换红底)
Mar 22 #Python
详解python-图像处理(映射变换)
Mar 22 #Python
python中如何使用分步式进程计算详解
Mar 22 #Python
浅谈Python基础—判断和循环
Mar 22 #Python
浅谈python常用程序算法
Mar 22 #Python
You might like
使用TinyButStrong模板引擎来做WEB开发
2007/03/16 PHP
如何在PHP中使用正则表达式进行查找替换
2013/06/13 PHP
PHP中使用Imagick读取pdf并生成png缩略图实例
2015/01/21 PHP
PHP基于MySQL数据库实现对象持久层的方法
2015/06/17 PHP
Thinkphp开发--集成极光推送
2017/09/15 PHP
laravel框架select2多选插件初始化默认选中项操作示例
2020/02/18 PHP
js获取元素在浏览器中的绝对位置
2010/07/24 Javascript
使用 Node.js 做 Function Test实现方法
2013/10/25 Javascript
JS实现超炫网页烟花动画效果的方法
2015/03/02 Javascript
Node.Js中实现端口重用原理详解
2018/05/03 Javascript
Vue引入jquery实现平滑滚动到指定位置
2018/05/09 jQuery
Bootstrap标签页(Tab)插件切换echarts不显示问题的解决
2018/07/13 Javascript
js字符串处理之绝妙的代码
2019/04/05 Javascript
解决Vue大括号字符换行踩的坑
2020/11/09 Javascript
wxpython中利用线程防止假死的实现方法
2014/08/11 Python
Django imgareaselect手动剪切头像实现方法
2015/05/26 Python
python创建进程fork用法
2015/06/04 Python
Django模板变量如何传递给外部js调用的方法小结
2017/07/24 Python
解决使用pycharm提交代码时冲突之后文件丢失找回的方法
2018/08/05 Python
Python3爬虫教程之利用Python实现发送天气预报邮件
2018/12/16 Python
pyqt 实现QlineEdit 输入密码显示成圆点的方法
2019/06/24 Python
python 数据提取及拆分的实现代码
2019/08/26 Python
python词云库wordcloud的使用方法与实例详解
2020/02/17 Python
如何利用python检测图片是否包含二维码
2020/10/15 Python
关于前端上传文件全面基础扫盲贴(入门)
2019/08/01 HTML / CSS
iframe在移动端的缩放的示例代码
2018/10/12 HTML / CSS
澳大利亚药房在线:ThePharmacy
2017/10/04 全球购物
施华洛世奇意大利官网:SWAROVSKI意大利
2018/07/23 全球购物
高中校园广播稿
2014/01/11 职场文书
英语简历自我评价
2014/01/26 职场文书
大学学习个人的自我评价
2014/02/18 职场文书
党员学习中共十八大思想报告
2014/09/12 职场文书
高一学年自我鉴定范文(3篇)
2014/09/26 职场文书
2014年大学团支部工作总结
2014/12/02 职场文书
mysql获取指定时间段中所有日期或月份的语句(不设存储过程,不加表)
2021/06/18 MySQL
探讨Java中的深浅拷贝问题
2021/06/26 Java/Android