python 使用elasticsearch 实现翻页的三种方式


Posted in Python onJuly 31, 2020

python 使用elasticsearch 实现翻页的三种方式

使用ES做搜索引擎拉取数据的时候,如果数据量太大,通过传统的from + size的方式并不能获取所有的数据(默认最大记录数10000),因为随着页数的增加,会消耗大量的内存,导致ES集群不稳定。因此延伸出了scroll,search_after等翻页方式。

一、from + size 浅分页

"浅"分页可以理解为简单意义上的分页。它的原理很简单,就是查询前20条数据,然后截断前10条,只返回10-20的数据。这样其实白白浪费了前10条的查询。

GET test/_search
{
 "query": {
 "bool": {
  "filter": [
  {
   "term": {
   "age": 28
   }
  }
  ]
 }
 },
 "size": 10,
 "from": 20,
 "sort": [
 {
  "timestamp": {
  "order": "desc"
  },
  "_id": {
  "order": "desc"
  }
 }
 ]
}

from定义了目标数据的偏移值,size定义当前返回的数目。默认from为0,size为10,即所有的查询默认仅仅返回前10条数据。

在这里有必要了解一下from/size的原理:
因为es是基于分片的,假设有5个分片,from=100,size=10。则会根据排序规则从5个分片中各取回100条数据数据,然后汇总成500条数据后选择最后面的10条数据。

做过测试,越往后的分页,执行的效率越低。总体上会随着from的增加,消耗时间也会增加。而且数据量越大,就越明显!

二、scroll 深分页

 from+size查询在10000-50000条数据(1000到5000页)以内的时候还是可以的,但是如果数据过多的话,就会出现深分页问题。为了解决上面的问题,elasticsearch提出了一个scroll滚动的方式。
scroll 类似于sql中的cursor,使用scroll,每次只能获取一页的内容,然后会返回一个scroll_id。根据返回的这个scroll_id可以不断地获取下一页的内容,所以scroll并不适用于有跳页的情景。

# -*- coding: utf-8 -*-
# @Time : 
# @Author :
 
from elasticsearch import Elasticsearch
 
es = Elasticsearch(hosts="ip:9200", timeout=20, max_retries=10, retry_on_timeout=True)
 
# Elasticsearch 需要保持搜索的上下文环境多久 游标查询过期时间为10分钟(10m)
page = es.search(
    index="source_keyword_message", doc_type="source_keyword_message",
    scroll='10m',
    size=100,
    body={
     "query": {"match_all": {}},
    }
   )
# 游标用于输出es查询出的所有结果
sid = page['_scroll_id']
# es查询出的结果总量
scroll_size = page['hits']['total']
# es查询出的结果第一页
datas = page.get('hits').get('hits')
 
while (scroll_size > 0):
  page = es.scroll(scroll_id=sid, scroll='5m')
  sid = page['_scroll_id']
  scroll_size = len(page['hits']['hits'])
  datas = page.get('hits').get('hits')
  1. scroll=5m表示设置scroll_id保留5分钟可用。
  2. 使用scroll必须要将from设置为0。默认0
  3. size决定后面每次调用_search搜索返回的数量

三、search_after 深分页

scroll 的方式,官方的建议不用于实时的请求(一般用于数据导出),因为每一个 scroll_id 不仅会占用大量的资源,而且会生成历史快照,对于数据的变更不会反映到快照上。

search_after 分页的方式是根据上一页的最后一条数据来确定下一页的位置,同时在分页请求的过程中,如果有索引数据的增删改查,这些变更也会实时的反映到游标上。但是需要注意,因为每一页的数据依赖于上一页最后一条数据,所以无法跳页请求。

为了找到每一页最后一条数据,每个文档必须有一个全局唯一值,官方推荐使用 _uid 作为全局唯一值,其实使用业务层的 id 也可以。

GET test/_search
{
 "query": {
 "bool": {
  "filter": [
  {
   "term": {
   "age": 28
   }
  }
  ]
 }
 },
 "size": 20,
 "from": 0,
 "sort": [
 {
  "timestamp": {
  "order": "desc"
  },
  "_id": {
  "order": "desc"
  }
 }
 ]
}
  1. 使用search_after必须要设置from=0。
  2. 这里我使用timestamp和_id作为唯一值排序。
  3. 我们在返回的最后一条数据里拿到sort属性的值传入到search_after。

使用sort返回的值搜索下一页:

GET test/_search
{
 "query": {
 "bool": {
  "filter": [
  {
   "term": {
   "age": 28
   }
  }
  ]
 }
 },
 "size": 10,
 "from": 0,
 "search_after": [
 1541495312521,
 "d0xH6GYBBtbwbQSP0j1A"
 ],
 "sort": [
 {
  "timestamp": {
  "order": "desc"
  },
  "_id": {
  "order": "desc"
  }
 }
 ]
}

 到此这篇关于python 使用elasticsearch 实现翻页的三种方式的文章就介绍到这了,更多相关python elasticsearch 翻页内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
python ElementTree 基本读操作示例
Apr 09 Python
python批量下载图片的三种方法
Apr 22 Python
在Debian下配置Python+Django+Nginx+uWSGI+MySQL的教程
Apr 25 Python
Python使用functools实现注解同步方法
Feb 06 Python
Go/Python/Erlang编程语言对比分析及示例代码
Apr 23 Python
pandas 条件搜索返回列表的方法
Oct 30 Python
自定义django admin model表单提交的例子
Aug 23 Python
Python:合并两个numpy矩阵的实现
Dec 02 Python
python实现录屏功能(亲测好用)
Mar 02 Python
Python实现自动签到脚本的示例代码
Aug 19 Python
Python实现像awk一样分割字符串
Sep 15 Python
一篇文章搞懂python混乱的切换操作与优雅的推导式
Aug 23 Python
Python爬虫获取豆瓣电影并写入excel
Jul 31 #Python
深入浅析Python代码规范性检测
Jul 31 #Python
python使用Word2Vec进行情感分析解析
Jul 31 #Python
Python爬虫基于lxml解决数据编码乱码问题
Jul 31 #Python
Python如何定义有可选参数的元类
Jul 31 #Python
Python爬虫爬取糗事百科段子实例分享
Jul 31 #Python
Python如何对齐字符串
Jul 30 #Python
You might like
德生PL330的评价与改造
2021/03/02 无线电
php5.5中类级别的常量使用介绍
2013/10/02 PHP
浅谈laravel框架与thinkPHP框架的区别
2019/10/23 PHP
JavaScript具有类似Lambda表达式编程能力的代码(改进版)
2010/09/14 Javascript
js实现的GridView即表头固定表体有滚动条且可滚动
2014/02/19 Javascript
JS基于面向对象实现的放烟花效果
2015/05/07 Javascript
Javascript编写俄罗斯方块思路及实例
2015/07/07 Javascript
JS平滑无缝滚动效果的实现代码
2016/05/06 Javascript
Bootstrap学习笔记之css样式设计(2)
2016/06/07 Javascript
通过BootStrap实现轮播图的实际应用
2016/09/26 Javascript
JavaScript下拉菜单功能实例代码
2017/03/01 Javascript
Vue实现百度下拉提示搜索功能
2017/06/21 Javascript
jquery获取元素到屏幕四周可视距离的方法
2018/09/05 jQuery
浅谈Three.js截图并下载的大坑
2019/11/01 Javascript
vue点击页面空白处实现保存功能
2019/11/06 Javascript
[42:52]Optic vs Serenity 2018国际邀请赛淘汰赛BO3 第二场 8.22
2018/08/23 DOTA
Python多进程同步Lock、Semaphore、Event实例
2014/11/21 Python
基于Python的接口测试框架实例
2016/11/04 Python
Python实现的手机号归属地相关信息查询功能示例
2017/06/08 Python
Python实现XML文件解析的示例代码
2018/02/05 Python
python读取Excel实例详解
2018/08/17 Python
pycharm运行和调试不显示结果的解决方法
2018/11/30 Python
python3光学字符识别模块tesserocr与pytesseract的使用详解
2020/02/26 Python
Tom Dixon官网:英国照明及家具设计和制造公司
2019/03/01 全球购物
马来西亚在线购物:POPLOOK.com
2019/12/09 全球购物
在C中是否有模拟继承等面向对象程序设计特性的好方法
2012/05/22 面试题
实习自我鉴定
2013/12/15 职场文书
报到证丢失证明
2014/01/11 职场文书
交通安全标语
2014/06/06 职场文书
学党史心得体会
2014/09/05 职场文书
四查四看自我剖析材料
2014/09/19 职场文书
党员三严三实心得体会
2014/10/13 职场文书
就业推荐表自我评价范文
2015/03/02 职场文书
个人收入证明格式
2015/06/24 职场文书
简单聊聊Vue中的计算属性和属性侦听
2021/10/05 Vue.js
maven 解包依赖项中的文件的解决方法
2022/07/15 Java/Android