随笔分类 -  大数据平台

大数据平台安装配置,案例讲解等
摘要:主要介绍实时数仓得部署、计算 文章主要分3部分 数据采集 \(\color{red}{[E]}\) 关系型数据库MySql/PG/Oracle+Debezium+Kafka Connector 数据计算 \(\color{red}{[T]}\) Flink 数据存储 \(\color{red}{[L 阅读全文
posted @ 2021-06-28 15:38 冷幽篁 阅读(4154) 评论(1) 推荐(0)
摘要:实验环境 本次测试环境都是基于单机环境: Oracle:docker oracle12c 日志模式:归档日志模式 archivelog 用户:scott/tiger 具有dba权限 大数据组件:kafka(默认创建好topic:flink_topic),zookeeper,flink1.12 Kaf 阅读全文
posted @ 2021-06-02 09:52 冷幽篁 阅读(1218) 评论(2) 推荐(1)
摘要:MapReduce原理 Map阶段 文件在被读取(调用read())的是用Inputformat方法读入的。在这里读入一行,返回一个key-vlaue(K,V)对,key是行号的偏移量,value的值是这一行的内容。 在上述过程中,在第4步调用map()方法后,将以上内容真正转换成(key,valu 阅读全文
posted @ 2021-01-21 19:04 冷幽篁 阅读(651) 评论(0) 推荐(0)
摘要:Hive的UDF分为3种 UDF : ONE TO ONE,进来一个出去一个 ,row mapping。是row级别操作,如:upper、substr函数 UDAF: manyTO ONE,进来多个出去一个 ,row mapping。是row级别操作,如sum/min。 UDTF: ONE TO m 阅读全文
posted @ 2020-09-04 16:34 冷幽篁 阅读(722) 评论(0) 推荐(0)
摘要:本篇文章主要讲述如何在CDH中启动Spark Thrift。 本次测试的版本: CDH版本:5.14.2 spark:1.6.0 文中主要用root来部署,但是启动的时候用的spark用户,中间会有一些权限方面的问题。大家可以根据提示自行添加权限。我这边权限不够默认都给了777,方便测试。 文中的s 阅读全文
posted @ 2020-06-05 11:23 冷幽篁 阅读(3401) 评论(0) 推荐(0)
摘要:Kafka Web端管理界面Cmak安装配置 下载地址:https://github.com/yahoo/CMAK 1. 下载完直接解压到当前目录中: unzip cmak-3.0.0.4.zip 2. 修改配置文件 cd /var/cmak/cmak-3.0.0.4/conf vi applica 阅读全文
posted @ 2020-04-15 15:14 冷幽篁 阅读(9822) 评论(2) 推荐(1)
摘要:需要依赖包,并放到flink/lib目录中: 下载地址: https://ci.apache.org/projects/flink/flink-docs-release-1.10/dev/table/connect.html#jdbc-connector flink-json-1.10.0-sql- 阅读全文
posted @ 2020-04-09 18:53 冷幽篁 阅读(3259) 评论(0) 推荐(0)
摘要:ORACLE的DDL日志 推送到Kafka,并用Flink进行实时统计 本次测试的环境: 环境:docker oracle12c 日志模式:归档日志模式 archivelog 用户:scott/tiger 具有dba权限 大数据组件:kafka(默认创建好topic:flink_topic),zoo 阅读全文
posted @ 2020-04-08 15:52 冷幽篁 阅读(3275) 评论(2) 推荐(0)
摘要:今天介绍用 Flink 读取Kafka生成的数据,并进行汇总的案例 第一步:环境准备,kafka,flink,zookeeper。我这边是用的CDH环境,kafka跟zookeeper 都安装完毕,并测试可以正常使用 第二步:用kafka创建一个生产者进行消息生产 ./kafka-console-p 阅读全文
posted @ 2020-03-19 14:02 冷幽篁 阅读(8344) 评论(0) 推荐(1)
摘要:CDH原生的组件里面不包含Flink的组件。如果我们需要用FLink的话,必须自己添加并进行相关的配置。本篇就是介绍如果进行Flink集成到CDH上 集成FLINK主要分2大步骤 第一步 提供一个包jar包,让cdh能识别你是谁,然后在cdh里注册,并下载文件激活。这里的jar有2种获取方式 第一种 阅读全文
posted @ 2020-02-16 16:36 冷幽篁 阅读(12788) 评论(4) 推荐(1)
摘要:在第二篇中,我们介绍完了cdh左右的配置工作,如果没有配置的同学,请回去查看第二篇内容。 本篇将继续介绍cdh前台的一些配置,如果后台配置都能顺利通过,那么前台配置会相对顺利。 另外2篇传送门: CDH6.2安装配置第一篇:CDH配置本地http服务 CDH6.2安装配置第二篇:CDH安装的前期配置 阅读全文
posted @ 2020-02-12 22:22 冷幽篁 阅读(1823) 评论(2) 推荐(1)
摘要:本篇介绍cdh安装之前需要的一些必要配置,当然这些配置也可以用shell脚本来配置。在安装之前请先配置好yum源,在文中用的统一都是阿里源。在安装的时候,要确保主机的内存是4G以上,要不然会无限重启cm服务 另外2篇传送门: CDH6.2安装配置第一篇:CDH配置本地http服务 CDH6.2安装配 阅读全文
posted @ 2020-02-12 15:51 冷幽篁 阅读(1903) 评论(0) 推荐(0)
摘要:在我们安装cdh的时候,避免不了要安装一大堆软件,包括cm的服务器,hadoop的各种组件。这些组件的文件都比较大,所以我们会在本地配置一个http服务,以便于在安装cdh服务的时候能快速的安装完。本文主要介绍http服务的安装。 另外2篇传送门: CDH6.2安装配置第二篇:CDH安装的前期配置 阅读全文
posted @ 2020-02-11 19:18 冷幽篁 阅读(2430) 评论(0) 推荐(0)