python 动态迁移solr数据过程解析


Posted in Python onSeptember 04, 2019

前言

上项目的时候,遇见一次需求,需要把在线的 其中一个 collection 里面的数据迁移到另外一个collection下,于是就百度了看到好多文章,其中大部分都是使用导入的方法,没有找到在线数据的迁移方法。于是写了python脚本,分享出来。

思路: collection数据量比较大,所以一次性操作所有数据太大,于是分段执行操作。

先分段 按1000条数据量进行查询,处理成json数据

把处理后的json数据 发送到目的collection上即可

实现:

一、使用http的接口先进行查询

使用如下格式查询:

其中:collection_name 是你查询的collection的名称

rows 是需要查询多少行,这里设置为1000

start 从多少行开始进行查询,待会儿脚本里面就是控制这个参数进行循环查询

http://host:port/solr/collection_name/select?q=*:*&rows=1000&start=0

查询处理后会得到如下图片里面的数据格式,其中

在response里面,有两个键值数据是我们需要的,一个是numFound(总的数据条数),docs(所有json数据都在这里面)

python 动态迁移solr数据过程解析

在docs里面,每条数据都带有version 键值,这个需要给去掉

python 动态迁移solr数据过程解析

二、使用http的接口提交数据

wt:使用json格式提交

http://host:port/solr/collection_name/update?wt=json

header 需设置为 {"Content-Type": "application/json"}

提交参数:solr在做索引的时候,如果文档已经存在,就替换。(这里的参数也可以直接加到url里面)

{"overwrite":"true","commit":"true"}

data_dict 就是我们处理后的 docs数据

提交数据:data={"add":{ "doc":data_dict}}

三、实现的脚本如下:

#coding=utf-8
import requests as r
import json
import threading
import time
#发送数据到目的url des_url,data_dict 参数为去掉version键值后的一条字典数据
def send_data(des_url,data_dict):
 data={"add":{ "doc":data_dict}}
 headers = {"Content-Type": "application/json"}
 params = {"boost":1.0,"overwrite":"true","&commitWithin":1000,"commit":"true"}
 url = "%s/update?wt=json"%(des_url)
 re = r.post(url,json = data,params=params,headers=headers)
 if re.status_code != 200:
  print("导入出错",data)

#获取数据,调用send_data 发送数据到目的url
def get_data(des_url,src_url):
  #定义起始行
 start = 0
 #先获取到总的数据条数
 se_data=r.get("%s/select?q=*:*&rows=0&start=%s"%(src_url,start)).text
 se_dict = json.loads(se_data)
 numFound = int(se_dict["response"]["numFound"])
 #while循环,1000条数据为一个循环
 while start < numFound:
  #定义存放多线程的列表
  th_li = []
    #获取1000条数据
  se_data=r.get("%s/select?q=*:*&rows=1000&start=%s"%(src_url,start)).text
    #把获取的数据转换成字典
  se_dict = json.loads(se_data)
    #获取数据里的docs数据
  s_data = (se_dict["response"]["docs"])

  #循环得到的数据,删除 version键值,并使用多线程调用send_data 方法发送数据
  for i in s_data:
   del i["_version_"]
   th = threading.Thread(target=send_data,args=(des_url,i))
   th_li.append(th)

  for t in th_li:
   t.start()
   t.join()

  start += 1000
  print(start)

if __name__ == "__main__":
 #源数据,查询数据的collection地址
 src_url = "http://ip:port/solr/src_connection"
 #导入数据导目的collection 的地址
 des_url = "http://ip:port/solr/des_connection"
 start_time = time.time()
 get_data(des_url,src_url)
 end_time = time.time()
 print("耗时:",end_time-start_time,"秒")

备注:

一、如果你的collection 不在同一个网络,不能实现在线传输,可以先把for循环 删除了version键值的数据,写入一个文件中,然后copy到目的网络的服务器上,循环读取文件进行上传,如下写入文件(这个就根据各位大佬的喜好来写了),但读取后,需要把每一条数据都转换成字典进行上传:

file = open("solr.json","a+")
for i in s_data:
del i["version"]
file.write(str(i)+"\n")
file.close()

二、清除数据可使用一下方法,自测比较方便的一种

在你要清除collection里面

选择 documents

document type 选择xml

将一下内容复制到如图位置,最后点击submit document 按钮即可

#控制web界面删除数据
<delete><query>:</query></delete>
<commit/>

python 动态迁移solr数据过程解析

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python中的包和模块实例
Nov 22 Python
聊聊Python中的pypy
Jan 12 Python
numpy中的高维数组转置实例
Apr 17 Python
python 实现判断ip连通性的方法总结
Apr 22 Python
mac PyCharm添加Python解释器及添加package路径的方法
Oct 29 Python
python:接口间数据传递与调用方法
Dec 17 Python
tensorflow2.0与tensorflow1.0的性能区别介绍
Feb 07 Python
Python实现名片管理系统
Feb 14 Python
pytorch 模型的train模式与eval模式实例
Feb 20 Python
Pytorch上下采样函数--interpolate用法
Jul 07 Python
Python Pandas常用函数方法总结
Jun 15 Python
Python字符串的转义字符
Apr 07 Python
Django框架 信号调度原理解析
Sep 04 #Python
Django Admin中增加导出Excel功能过程解析
Sep 04 #Python
Django Admin中增加导出CSV功能过程解析
Sep 04 #Python
Python 自动登录淘宝并保存登录信息的方法
Sep 04 #Python
通过Python编写一个简单登录功能过程解析
Sep 04 #Python
利用 Flask 动态展示 Pyecharts 图表数据方法小结
Sep 04 #Python
python3实现微型的web服务器
Sep 03 #Python
You might like
php Undefined index的问题
2009/06/01 PHP
php 广告调用类代码(支持Flash调用)
2011/08/11 PHP
php利用新浪接口查询ip获取地理位置示例
2014/01/20 PHP
教你如何开启shopnc b2b2c 伪静态
2014/10/21 PHP
利用PHP函数计算中英文字符串长度的方法
2014/11/11 PHP
PHP实现抓取迅雷VIP账号的方法
2015/07/30 PHP
PHP实现多维数组转字符串和多维数组转一维数组的方法
2015/08/08 PHP
php文件操作小结(删除指定文件/获取文件夹下的文件名/读取文件夹下图片名)
2016/05/09 PHP
PHP正则匹配操作简单示例【preg_match_all应用】
2017/07/10 PHP
用JavaScript隐藏控件的方法
2009/09/21 Javascript
jquery使用jxl插件导出excel示例
2014/04/14 Javascript
JS模拟键盘打字效果的方法
2015/08/05 Javascript
谈谈encodeURI和encodeURIComponent以及escape的区别与应用
2015/11/24 Javascript
JavaScript+html5 canvas实现本地截图教程
2020/04/16 Javascript
jQuery中的Deferred和promise 的区别
2016/04/03 Javascript
详解在Angularjs中ui-sref和$state.go如何传递参数
2017/04/24 Javascript
angularjs通过过滤器返回超链接的方法
2018/10/26 Javascript
vue 中基于html5 drag drap的拖放效果案例分析
2018/11/01 Javascript
vue使用video插件vue-video-player的示例
2020/10/03 Javascript
js实现简单商品筛选功能
2021/02/02 Javascript
python实现的文件夹清理程序分享
2014/11/22 Python
使用pytorch实现可视化中间层的结果
2019/12/30 Python
整理HTML5中表单的常用属性及新属性
2016/02/19 HTML / CSS
字符串str除首尾字符外的其他字符按升序排列
2013/03/08 面试题
经济职业学院毕业生自荐书
2014/03/17 职场文书
副校长竞聘演讲稿
2014/09/01 职场文书
秋季运动会广播稿(30篇)
2014/09/13 职场文书
2015年司机工作总结
2015/04/23 职场文书
2015年七夕情人节活动方案
2015/05/06 职场文书
2015年音乐教研组工作总结
2015/07/22 职场文书
2019个人工作总结
2019/06/21 职场文书
基于go interface{}==nil 的几种坑及原理分析
2021/04/24 Golang
总结python多进程multiprocessing的相关知识
2021/06/29 Python
Java使用httpRequest+Jsoup爬取红蓝球号码
2021/07/02 Java/Android
SpringBoot读取Resource下文件的4种方法
2021/07/02 Java/Android
Python+腾讯云服务器实现每日自动健康打卡
2021/12/06 Python