Kafka 数据同步到 ClickHouse

1 Kafka 基础环境搭建

因为主要是为了测试数据同步，因此 Kafka 只简单安装了单机版本。

1.1 安装 JDK

cd /usr/src

在这里[https://www.oracle.com/java/technologies/javase/javase-jdk8-downloads.html]选择合适的 JDK 版本，并下载。

tar zxvf jdk-8u261-linux-x64.tar.gz
mv jdk1.8.0_261/ java

编辑 /etc/profile

vim /etc/profile

加入以下内容：

JAVA_HOME=/usr/src/java
PATH=$PATH:$JAVA_HOME/bin
export JAVA_HOME PATH

执行

source /etc/profile

1.2 安装 kafka

cd /usr/src

在这里[http://archive.apache.org/dist/kafka/2.0.0/]选择合适的 kafka 版本，并下载。

tar zxvf kafka_2.11-2.0.0.tgz
mv kafka_2.11-2.0.0 kafka

1.3 启动 zk

cd /usr/src/kafka

./bin/zookeeper-server-start.sh -daemon config/zookeeper.properties

1.4 启动 kafka

nohup ./bin/kafka-server-start.sh config/server.properties &

1.5 创建 topics

./bin/kafka-topics.sh --create --zookeeper localhost:2181 --replication-factor 1 --partitions 1 --topic test

1.6 查看 topics

./bin/kafka-topics.sh --list --zookeeper localhost:2181

1.7 产生消息

./bin/kafka-console-producer.sh --broker-list localhost:9092 --topic test执行完上面命令后，会出现下面的窗口：
然后在 > 后面输入需要产生的消息，如下：

1.8 消费消息

另外开一个连接窗口，执行：

cd /usr/src/kafka/bin/kafka-console-consumer.sh --bootstrap-server localhost:9092 --topic test --from-beginning

可以看到在 1.7 步骤生成的消息。

2 安装 ClickHouse

ClickHouse 单机版安装参考：https://clickhouse.tech/docs/zh/getting-started/install/

3 创建消费表

在 ClickHouse 上创建 kafka 消费表登录 ClickHouse
clickhouse-client
进行建库建表操作：

create database kafka_data;
use kafka_data;

create table kafka_queue(id UInt32,code String,name String)engine =Kafka() settings kafka_broker_list = 'localhost:9092',kafka_topic_list='test',kafka_group_name='group1',kafka_format='JSONEachRow',kafka_skip_broken_messages=100;

注：

kafka_broker_list：kafka 的连接地址和端口。
kafka_topic_list：kafka 的 topic 名。
kafka_group_name：kafka 的组名。
kafka_format：表示用于解析消息的数据格式，消息发送端必须按此格式发送消息。
kafka_skip_broken_messages：当解析数据出现错误时，运行跳过失败的数据行数。

4 创建存储表

因为 Kafka 消费表不能直接作为结果表使用。Kafka 消费表只是用来消费Kafka数据，没有真正的存储所有数据，只要查询一次，数据就会清空。因此需要在 ClickHouse 中创建存储表保存数据。在 ClickHouse 上创建存储表：create table kafka_table(id UInt32,code String,name String) engine=MergeTree() order by id

5 创建数据同步视图

创建 view 把 kafka 消费表消费到的数据导入 ClickHouse 存储表：

create materialized view consumer to kafka_table as select id,code,name from kafka_queue

6 测试数据同步

/usr/src/kafka/bin/kafka-console-producer.sh --broker-list localhost:9092 --topic test

输入：

{"id":2,"code":"two","name":"aa"}

确认 ClickHouse 存储表是否能正常获取到数据

select * from kafka_table

7 其他维护操作

停止数据同步，可以删除视图

drop table consumer

或者卸载

detach table consumer

卸载之后，如果想再次恢复，可以使用：

attach materialized view consumer to kafka_table(id UInt32,code String,name String)as select id,code,name from kafka_queue

8 存在的问题通过 Kafka 引擎进行数据同步的方式尽管很方便，但是在实战过程中发现，Kafka 吐出来的数据不一定会是 {"id":2,"code":"two","name":"aa"} 这类格式，这种情况可以考虑使用另外一种方案：借助 Flume 实现 Kafka 到 CH 的同步

posted @ 2021-12-12 13:30 屠魔的少年阅读(5) 评论(0) 收藏举报

刷新页面返回顶部