Java数据开发辅助工具Docker与普通程序使用方法


Posted in Java/Android onSeptember 15, 2021

介绍

需求背景:

有很多业务系统,他们的数据库是相互独立的,俗称数据孤岛,为了做数据统计分析,就需要把这些数据归集在一个数据库中,比如数据仓库,然后多表关联查询,方便开发数据应用。希望能有这样的工具,指定两个数据库和表名,就可以将表从源数据库拷贝到目标数据库中。具体需求如下:

  • 能自动同步表结构,如:源表加字段,目标表自动加字段。
  • 支持增量或全量复制数据,比如按日期进行复制数据。
  • 支持指定字段同步,只同步关心的那些字段。
  • 支持主流的关系型数据库: mysql、db2、postgresql、oracle、sqlserver
  • 源表和目标表表名可以不同,字段名也可以不同(已存在目标表的情况下)

因为自己要用,我就自己写了一个,顺便熟悉下 java 开发(之前一直用 Python,不得不说,Java 真浪费时间),本程序的最大用处就是构建集市或数仓所需要的基础层数据源,欢迎感兴趣的朋友一起加入。

程序的使用方法

Docker 方式:

这里用到三个容器:

  • app 也就是主程序本身,app 容器使用的程序文件就是 release 目录下的文件,已经做了绑定。
  • mysql 测试用的,作为源数据库,已提前放好了有 7000 条测试数据的表 somenzz_users。
  • postgres 测试用的,作为目标数据库,没有数据。

先部署,执行 docker-compose up -d 就会自动完成应用和数据库的部署:

$ git clone https://github.com/somenzz/database-sync.git
$ cd database-sync
$ docker-compose up -d
Creating database-sync_postgres_1 ... done
Creating database-sync_app_1      ... done
Creating database-sync_mysql_1    ... done

这样三个容器就启动了,使用 docker ps -a |grep database-sync 可以查看到三个正在运行的容器:

Java数据开发辅助工具Docker与普通程序使用方法

现在直接使用 docker exec -i database-sync_app_1 java -jar database-sync-1.3.jar 来执行程序:

Java数据开发辅助工具Docker与普通程序使用方法

mysql 容器已有测试数据,release/config/config.json 已经配置好了数据库的连接,因此可以直接试用,以下演示的是从 mysql 复制表和数据到 postgres:

1. 全量复制,自动建表:

docker exec -i database-sync_app_1 java -jar database-sync-1.3.jar mysql_test testdb somenzz_users postgres_test public users --sync-ddl

Java数据开发辅助工具Docker与普通程序使用方法

如果你不想每次都敲 docker exec -i database-sync_app_1 ,可以进入容器内部执行:

(py38env) ➜  database-sync git:(master) ✗ docker exec -it database-sync_app_1 /bin/bash
root@063b1dc76fe1:/app# ls
config database-sync-1.3.jar  lib  logs
root@063b1dc76fe1:/app# java -jar database-sync-1.3.jar mysql_test testdb somenzz_users postgres_test public users -sd

2. 增量复制:

root@063b1dc76fe1:/app# java -jar database-sync-1.3.jar mysql_test testdb somenzz_users postgres_test public zz_users "create_at >= '2018-01-09'"

Java数据开发辅助工具Docker与普通程序使用方法

3. 指定字段:

root@063b1dc76fe1:/app# java -jar database-sync-1.3.jar mysql_test testdb somenzz_users postgres_test public zz_users -ff="user_id,name,age" -tf="user_id,name,age" "create_at >= '2018-01-09'"

Java数据开发辅助工具Docker与普通程序使用方法

普通方式

程序运行前确保已安装 java 1.8 或后续版本,已经安装 maven,然后 clone 源码,打包:

git clone https://gitee.com/somenzz/database-sync.git
cd database-sync
mvn package

此时你会看到 target 目录,将 target 下的 lib 目录 和 database-sync-1.3.jar 复制出来,放在同一目录下,然后再创建一个 config 目录,在 config 下新建一个 config.json 文件写入配置信息,然后将这个目录压缩,就可以传到服务器运行了,请注意先充分测试,jdk 要求 1.8+

[aaron@hdp002 /home/aaron/App/Java/database-sync]$ ls -ltr
total 48
drwxr-xr-x 2 aaron aaron  4096 Apr 23  2020 lib
-rwxrw-r-- 1 aaron aaron   157 Jun 23  2020 run.sh
drwxrwxr-x 2 aaron aaron  4096 Jul  3  2020 logs
-rw-rw-r-- 1 aaron aaron 24773 Mar 16  2021 database-sync-1.3.jar
drwxr-xr-x 7 aaron aaron  4096 Aug  3  2020 jdk1.8.0_231
drwxrwxr-x 2 aaron aaron  4096 Feb 19 17:07 config

你也可以直接下载我打包好的使用。

程序名称叫 database-sync,运行方式是这样的:

(py38env) ➜  target git:(master) ✗ java -jar database-sync-1.3.jar -h      
Usage: 
java -jar database-sync-1.0.jar [options] {fromDB} {fromSchema} {fromTable} {toDB} {toSchema} {toTable} [whereClause]
options:
        -v or --version                            :print version then exit
        -h or --help                               :print help info then exit
        -sd or --sync-ddl                          :auto synchronize table structure
        -ff=col1,col2 or --from-fields=col1,col2   :specify from fields
        -tf=col3,col4 or --to-fields=col3,col4     :specify to fields
        --no-feature or -nf                        :will not use database's feature

帮助说明:

[] 中括号里的内容表示选填,例如 [options] 表示 options 下的参数不是必须的。

1、其中 options 参数解释如下:

--sync-ddl 或者 -sd : 加入该参数会自动同步表结构。

--from_fields=col1,col2 或者 -ff=col1,col2 : 指定原表的字段序列,注意 = 前后不能有空格。

--to_fields=col3,col4 或者 -tf=col3,col4 : 指定目标表的字段序列,注意 = 前后不能有空格。

2、whereClause 表示 where 条件,用于增量更新,程序再插入数据前先按照 where 条件进行清理数据,然后按照 where 条件从原表进行读取数据。whereClause 最好使用双引号包起来,表示一个完整的参数。如:"jyrq='2020-12-31'"

{} 大括号里的内容表示必填。

fromDb 是指配置在 config.json 的数据库信息的键,假如有以下配置文件:

{
      "postgres":{
        "type":"postgres",
        "driver":"org.postgresql.Driver",
        "url":"jdbc:postgresql://localhost:5432/apidb",
        "user": "postgres",
        "password":"aaron",
        "encoding": "utf-8"
    }, 
    "aarondb":{
        "type":"mysql",
        "driver":"com.mysql.cj.jdbc.Driver",
        "url":"jdbc:mysql://localhost:3306/aarondb?useSSL=false&characterEncoding=utf8&serverTimezone=UTC",
        "user": "aaron",
        "password":"aaron"
    }
}

fromDb、toDb 可以是 aarondb 或者 postgres。

fromSchema 读取数据的表的模式名,可以填写 "".

fromTable 读取数据的表明,必须提供。

toSchema 写入数据表的模式名,可以填写 "",可以和 fromSchema 不同.

toTable 写入数据表的表名,必须提供,当写入表不存在时,自动按读取表的表结构创建,可以和 fromTable 不同。

全量、增量、指定字段的使用样例请参考 Docker 方式。

配置文件说明

配置文件位于 config/config.json,如下所示:

{
    "sjwb":{
        "type":"db2",
        "driver":"com.ibm.db2.jcc.DB2Driver",
        "url":"jdbc:db2://192.168.1.*:50000/wbsj",
        "user": "****",
        "password":"****",
        "tbspace_ddl": "/*这里可以放置指定表空间的语句*/",
        "encoding":"utf-8"
    },
     "dw_test":{
        "type":"db2",
        "driver":"com.ibm.db2.jcc.DB2Driver",
        "url":"jdbc:db2://192.168.169.*:60990/dwdb",
        "user": "****",
        "password":"****",
        "encoding":"gbk"
    },
     "postgres":{
        "type":"postgres",
        "driver":"org.postgresql.Driver",
        "url":"jdbc:postgresql://10.99.**.**:5432/apidb",
        "user": "****",
        "password":"****",
        "tbspace_ddl": "WITH (compression=no, orientation=orc, version=0.12)\ntablespace hdfs\n",
        "encoding":"utf-8"
    }, 
    "aarondb":{
        "type":"mysql",
        "driver":"com.mysql.cj.jdbc.Driver",
        "url":"jdbc:mysql://localhost:3306/aarondb?useSSL=false&characterEncoding=utf8&serverTimezone=UTC",
        "user": "****",
        "password":"****",
        "encoding":"utf-8"
    },
     "buffer-rows": 100000
}

配置文件说明:

type  表示数据库类型,均为小写:

  • mysql
  • postgres
  • db2
  • oracle
  • sqlserver

tbspace_ddl 表示自动建表时指定的表空间,该选项不是必需的,可以删除。

buffer-rows 表示读取多少行时一块写入目标数据库,根据服务器内存大小自己做调整,100000 行提交一次满足大多数情况了。

encoding 用于表结构同步时确定字段长度,比如说源库的字段是 gbk varchar(10),目标库是 utf-8,那么就应该为 varchar(15),这样字段有中文就不会出现截断或插入失败问题,程序这里 2 倍,也就是 varchar(20) ,这样字段长度不会出现小数位。

最后的话

提高数据库间表的复制效率,如果不需要对源表字段进行转换,就丢掉低效的 datastage 和 kettle 吧。

以上就是Java数据开发辅助工具Docker与普通程序使用方法的详细内容,更多关于Java数据开发的资料请关注三水点靠木其它相关文章!

Java/Android 相关文章推荐
jackson json序列化实现首字母大写,第二个字母需小写
Jun 29 Java/Android
如何给HttpServletRequest增加消息头
Jun 30 Java/Android
使用logback实现按自己的需求打印日志到自定义的文件里
Aug 30 Java/Android
springboot新建项目pom.xml文件第一行报错的解决
Jan 18 Java/Android
关于maven依赖 ${xxx.version}报错问题
Jan 18 Java/Android
Netty客户端接入流程NioSocketChannel创建解析
Mar 25 Java/Android
Java 超详细讲解十大排序算法面试无忧
Apr 08 Java/Android
Java由浅入深通关抽象类与接口(上篇)
Apr 26 Java/Android
Java版 简易五子棋小游戏
May 04 Java/Android
Java实现带图形界面的聊天程序
Jun 10 Java/Android
SpringCloud超详细讲解Feign声明式服务调用
Jun 21 Java/Android
Android基础入门之dataBinding的简单使用教程
Jun 21 Java/Android
使用springMVC所需要的pom配置
Sep 15 #Java/Android
Java网络编程之UDP实现原理解析
Sep 04 #Java/Android
Java spring单点登录系统
详解Java七大阻塞队列之SynchronousQueue
java中用float时,数字后面加f,这样是为什么你知道吗
Sep 04 #Java/Android
SpringBoot实现quartz定时任务可视化管理功能
Aug 30 #Java/Android
logback 实现给变量指定默认值
Aug 30 #Java/Android
You might like
德生H-501的评价与改造
2021/03/02 无线电
PHP游戏编程25个脚本代码
2011/02/08 PHP
Yii2分页的使用及其扩展方法详解
2016/05/23 PHP
ThinkPHP框架使用redirect实现页面重定向的方法实例分析
2018/04/12 PHP
PDO::quote讲解
2019/01/29 PHP
PHP面向对象程序设计中的self、static、parent关键字用法分析
2019/08/14 PHP
ThinkPHP类似AOP思想的参数验证的实现方法
2019/12/18 PHP
告诉大家什么是JSON
2008/06/10 Javascript
选择TreeView控件的树状数据节点的JS方法(jquery)
2010/02/06 Javascript
jquery $.ajax()取xml数据的小问题解决方法
2010/11/20 Javascript
一个CSS+jQuery实现的放大缩小动画效果
2014/02/19 Javascript
jQuery插件datepicker 日期连续选择
2015/06/12 Javascript
jQuery实现气球弹出框式的侧边导航菜单效果
2015/09/22 Javascript
解析Node.js基于模块和包的代码部署方式
2016/02/16 Javascript
Javascript实现通过选择周数显示开始日和结束日的实现代码
2016/05/30 Javascript
关于JavaScript语句后面的分号问题
2017/12/07 Javascript
JavaScript事件委托原理与用法实例分析
2018/06/07 Javascript
Node.js 在本地生成日志文件的方法
2020/02/07 Javascript
8个非常实用的Vue自定义指令
2020/12/15 Vue.js
50行代码实现贪吃蛇(具体思路及代码)
2013/04/27 Python
零基础写python爬虫之urllib2使用指南
2014/11/05 Python
浅析Python中的join()方法的使用
2015/05/19 Python
利用python微信库itchat实现微信自动回复功能
2017/05/18 Python
浅谈配置OpenCV3 + Python3的简易方法(macOS)
2018/04/02 Python
python的scipy实现插值的示例代码
2019/11/12 Python
Fanatics英国官网:美国体育电商
2018/11/06 全球购物
SHEIN台湾:购买最新流行女装服饰
2019/05/18 全球购物
化工机械应届生求职信
2013/11/04 职场文书
记账会计岗位职责
2014/06/16 职场文书
毕业典礼邀请函
2015/01/31 职场文书
大学生心理健康活动总结
2015/05/08 职场文书
中秋节晚会开场白
2015/05/29 职场文书
八月一日观后感
2015/06/10 职场文书
委托书范本格式
2019/04/18 职场文书
Nginx配置https原理及实现过程详解
2021/03/31 Servers
一文了解Java动态代理的原理及实现
2022/07/07 Java/Android