canal数据同步nosql
canal:水道/管道/沟渠,主要用途是基于MySQL数据库增量日志解析,提供增量数据订阅和消费,canal是一个伪装成slave订阅mysql的binlog,实现数据同步的中间件。

- canal模拟MySQL slave交互协议,伪装为MySQL slave,向MySQL master发送dump协议
- MySQL master收到dump请求,开始推送binary log给slave(即canal)
- canal解析binary log对象(原始为byte流)
biglog同步保障数据一致性的架构

环境配置
MYSQL配置
自建MySQL, 需要先开启Binlog写入功能,配置binlog-format为ROW模式,my.cnf中配置如下
[mysqld] log-bin=mysql-bin # 开启binlog binlog-format=ROW # 选择ROW模式 server_id=1 # 配置MySQL replaction需要定义,不要和canal的slaveId重复
授权canal连接MySQL账号具有作为MySQL slave的权限,如果已有账户可直接使用grant命令授权。
set global validate_password_policy=0; set global validate_password_length=1; CREATE USER canal IDENTIFIED BY 'canal'; GRANT SELECT,INSERT, REPLICATION SLAVE, REPLICATION CLIENT ON *.* TO 'canal'@'%' identified by 'canal'; FLUSH PRIVILEGES;
canal安装
canal.admin安装和配置
canal提供web ui进行Server管理、Instance管理。
wget https://github.com/alibaba/canal/releases/download/canal-1.1.4/canal.admin-1.1.4.tar.gz
配置修改vim conf/application.yml
server: port: 8089 spring: jackson: date-format: yyyy-MM-dd HH:mm:ss time-zone: GMT+8 spring.datasource: address: 127.0.0.1:3306 database: canal_manager username: canal password: canal driver-class-name: com.mysql.jdbc.Driver url: jdbc:mysql://${spring.datasource.address}/${spring.datasource.database}?useUnicode=true&characterEncoding=UTF-8&useSSL=false hikari: maximum-pool-size: 30 minimum-idle: 1 canal: adminUser: admin adminPasswd: 123456
初始化元数据库:初始化SQL脚本里会默认创建canal_manager的数据库,,然后sh bin/startup.sh,启动成功,使用浏览器输入http://ip:8089/会跳转到登录界面

canal.deployer部署和启动
wget https://github.com/alibaba/canal/releases/download/canal-1.1.4/canal.deployer-1.1.4.tar.gz
使用canal_local.properties的配置覆盖canal.propertie
# register ip canal.register.ip = # canal admin config canal.admin.manager = 127.0.0.1:8089 canal.admin.port = 11110 canal.admin.user = admin canal.admin.passwd = 4ACFE3202A5FF5CF467898FC58AAB1D615029441 //select password('123456') # admin auto register canal.admin.register.auto = true canal.admin.register.cluster =
启动canal server
sh bin/startup.sh
在canal.admin web ui中刷新server管理,可以到canal server 已经启动成功。

在canal admin ui 中配置Instance管理
- 填写 Instance名称:cms_article
- 选择 选择所属主机集群
- 选择 载入模板
- 修改默认信息
#mysql serverId canal.instance.mysql.slaveId = 1234 #position info,需要改成自己的数据库信息 canal.instance.master.address = 127.0.0.1:3306 canal.instance.master.journal.name = canal.instance.master.position = canal.instance.master.timestamp = #canal.instance.standby.address = #canal.instance.standby.journal.name = #canal.instance.standby.position = #canal.instance.standby.timestamp = #username/password,需要改成自己的数据库信息 canal.instance.dbUsername = canal canal.instance.dbPassword = canal #改成自己的数据库信息(需要监听的数据库) canal.instance.defaultDatabaseName = cms-manage canal.instance.connectionCharset = UTF-8 #table regex 需要过滤的表 这里数据库的中所有表 canal.instance.filter.regex = .\*\\..\* # MQ 配置 日志数据会发送到cms_article这个topic上 canal.mq.topic=cms-topic # dynamic topic route by schema or table regex #canal.mq.dynamicTopic=mytest1.user,mytest2\\..*,.*\\..* #单分区处理消息 canal.mq.partition=0
需要点击保存。此时在Instances 管理中就可以看到此时的实例信息

修改canal server 的配置文件,选择消息队列处理binlog

修改配置文件
# ... # 可选项: tcp(默认), kafka, RocketMQ canal.serverMode = RocketMQ # ... # kafka/rocketmq 集群配置: 192.168.1.117:9092,192.168.1.118:9092,192.168.1.119:9092 canal.mq.servers = 192.168.21.29:9876 canal.mq.retries = 0 # flagMessage模式下可以调大该值, 但不要超过MQ消息体大小上限 canal.mq.batchSize = 16384 canal.mq.maxRequestSize = 1048576 # flatMessage模式下请将该值改大, 建议50-200 canal.mq.lingerMs = 1 canal.mq.bufferMemory = 33554432 # Canal的batch size, 默认50K, 由于kafka最大消息体限制请勿超过1M(900K以下) canal.mq.canalBatchSize = 50 # Canal get数据的超时时间, 单位: 毫秒, 空为不限超时 canal.mq.canalGetTimeout = 100 # 是否为flat json格式对象 canal.mq.flatMessage = false canal.mq.compressionType = none canal.mq.acks = all # kafka消息投递是否使用事务 canal.mq.transaction = false
修改好之后保存。会自动重启。可以在rocketmq的控制台看到一个cms-topic已经自动创建

其余就是消费mq消息,写es
参考:
https://github.com/liukelin/canal_mysql_nosql_sync
https://cloud.tencent.com/developer/article/1091077(后续)
浙公网安备 33010602011771号