上一页 1 ··· 4 5 6 7 8 9 10 11 12 ··· 69 下一页

2022年4月15日

|NO.Z.00044|——————————|BigDataEnd|——|Hadoop&实时数仓.V24|——|项目.v24|需求二:数据处理&增量统计.V2|——|编程实现|

摘要: 一、编程实现:工具类:每隔5分钟统计最近1小时内的订单交易情况显示城市/省份/交易总金额/订单总数 ### 编程实现:工具类一:ConnHBase package myutils import org.apache.hadoop.conf.Configuration import org.apach 阅读全文

posted @ 2022-04-15 15:04 yanqi_vip 阅读(52) 评论(0) 推荐(0)

|NO.Z.00045|——————————|BigDataEnd|——|Hadoop&实时数仓.V25|——|项目.v25|需求二:数据处理&增量统计.V3|——|编程实现/redis下沉器|

摘要: 一、编程实现:redis下沉器:MySinkToRedis ### 编程实现:redis下沉器:MySinkToRedis package ads import java.util import modes.CityOrder import org.apache.flink.configuratio 阅读全文

posted @ 2022-04-15 15:04 yanqi_vip 阅读(16) 评论(0) 推荐(0)

|NO.Z.00043|——————————|BigDataEnd|——|Hadoop&实时数仓.V23|——|项目.v23|需求二:数据处理&增量统计.V1|——|需求分析|

摘要: 一、需求2:每隔5分钟统计最近1小时内的订单交易情况,显示城市/省份/交易总金额/订单总数 增量统计 二、编程实现流程 ### 读取数据源(input) ~~~ # input读取数据源: input1:mysql:yanqi_area HBase:dim_yanqi_area(地域宽表) # 从h 阅读全文

posted @ 2022-04-15 15:03 yanqi_vip 阅读(43) 评论(0) 推荐(0)

|NO.Z.00041|——————————|BigDataEnd|——|Hadoop&实时数仓.V21|——|项目.v21|需求一:数据处理&全量查询.V5|——|DWS:hbash:yanqi_trade_orders+dim_yanqi_area生成flink:table中临时表|

摘要: 一、编程实现第四层:DWS层数据处理:统计城市、省份订单总额 ### 编程实现第四层:DWS层数据处理:统计城市、省份订单总额 ~~~ dws : 统计城市、省份的订单总额, ~~~ 订单总额和订单总数:orderNo、userId、status、totalMoney、areaId ~~~ ODS— 阅读全文

posted @ 2022-04-15 15:02 yanqi_vip 阅读(24) 评论(0) 推荐(0)

|NO.Z.00042|——————————|BigDataEnd|——|Hadoop&实时数仓.V22|——|项目.v22|需求一:数据处理&全量查询.V6|——|DWS:hbash:yanqi_trade_orders+dim_yanqi_area生成flink:table中临时表|

摘要: 一、启动相关服务 ### 启动相关服务 ~~~ # 启动zookeeper服务 [root@hadoop01 ~]# ./zk.sh start ~~~ # 启动kafka服务:所有节点 [root@hadoop01 ~]# kafka-server-start.sh -daemon /opt/ya 阅读全文

posted @ 2022-04-15 15:02 yanqi_vip 阅读(22) 评论(0) 推荐(0)

|NO.Z.00040|——————————|BigDataEnd|——|Hadoop&实时数仓.V20|——|项目.v20|需求一:数据处理&全量查询.V4|——|DIM:hbash:yanqi_area~~hbash:dim_yanqi_area|

摘要: 一、编程实现第三层:DIM层数据处理 ### 编程实现第三层:DIM层数据处理 ~~~ DIM:同第四部分 dim_yanqi_area表数据 ~~~ hbash:yanqi_area——>hbash:dim_yanqi_area ~~~ 生成hbash:yanqi_area表到hbash:dim_ 阅读全文

posted @ 2022-04-15 15:01 yanqi_vip 阅读(32) 评论(0) 推荐(0)

|NO.Z.00039|——————————|BigDataEnd|——|Hadoop&实时数仓.V19|——|项目.v19|需求一:数据处理&全量查询.V3|——|ODS:mysql:yanqi_area~~hbash:yanqi_area|

摘要: 一、编程实现第二层:ODS层数据处理 ### 编程实现第二层:ODS层数据处理 ~~~ ODS:同第四部分 yanqi_area ~~~ ODS:mysql--(binlog) canal kafka——>yanqi_area ~~~ 下沉mysql:yanqi_area表到hbash:yanqi_ 阅读全文

posted @ 2022-04-15 15:00 yanqi_vip 阅读(28) 评论(0) 推荐(0)

|NO.Z.00037|——————————|BigDataEnd|——|Hadoop&实时数仓.V17|——|项目.v17|需求一:数据处理&全量查询.V1|——|需求分析|

摘要: 一、需求1 :查询城市、省份、订单总额、订单总数 全量查询 ### ODS层数层数据处理:yanqi_trade_orders ~~~ ods层数据处理:同第三部分 ~~~ ods:mysql--(binlog) canal kafka——>yanqi_trade_orders ~~~ ods:my 阅读全文

posted @ 2022-04-15 14:59 yanqi_vip 阅读(18) 评论(0) 推荐(0)

|NO.Z.00038|——————————|BigDataEnd|——|Hadoop&实时数仓.V18|——|项目.v18|需求一:数据处理&全量查询.V2|——|ODS:mysql:yanqi_trade_orders~~hbash:yanqi_trade_orders|

摘要: 一、编程实现第一层:ODS层数据处理:查询城市、省份、订单总额、订单总数 全量查询 ### 编程实现第一层:ODS层数据处理:查询城市、省份、订单总额、订单总数 全量查询 ~~~ ods层数据处理 ~~~ ods:同第三部分:mysql--(binlog) canal kafka——>yanqi_t 阅读全文

posted @ 2022-04-15 14:59 yanqi_vip 阅读(28) 评论(0) 推荐(0)

|NO.Z.00035|——————————|BigDataEnd|——|Hadoop&实时数仓.V15|——|项目.v15|DWS层处理|数据仓库层数据处理|

摘要: 一、DWS ### 具体代码参见配套工程代码 ~~~ 数据仓库层次的划分不是固定不变的, ~~~ 可以根据实际需求进行适当裁剪或者是添加。 ~~~ 如果业务相对简单和独立,可以将DWD、DWS进行合并。 ~~~ # 注意:在实时数仓中,DWS层数据根据自己的需求定义,后期教程会定义 Walter S 阅读全文

posted @ 2022-04-15 14:58 yanqi_vip 阅读(25) 评论(0) 推荐(0)

|NO.Z.00036|——————————|BigDataEnd|——|Hadoop&实时数仓.V16|——|项目.v16|ADS层处理|读取数据明细分析结果下沉到Redis|

摘要: 一、ADS层处理 ### ADS层梳理 ~~~ ADS(Application Data Store 应用数据层)。 ~~~ 基于DW数据,整合汇总成主题域的服务数据,用于提供后续的业务查询等。 ### 从数据明细层读分析结果数据到clickhouse、redis、druid等 二、编程实现 ### 阅读全文

posted @ 2022-04-15 14:58 yanqi_vip 阅读(28) 评论(0) 推荐(0)

|NO.Z.00034|——————————|BigDataEnd|——|Hadoop&实时数仓.V14|——|项目.v14|DWD层处理|数据仓库层数据处理.V4|

摘要: 一、编程实现DWD(AreaDetailInfo代码同样可以归属在DIM层中):参考代码 ### 编程实现dwd层数据:AreaDetailInfo package dim import org.apache.flink.streaming.api.{CheckpointingMode, TimeC 阅读全文

posted @ 2022-04-15 14:58 yanqi_vip 阅读(25) 评论(0) 推荐(0)

|NO.Z.00032|——————————|BigDataEnd|——|Hadoop&实时数仓.V12|——|项目.v12|DWD层处理|数据仓库层数据处理.V2|

摘要: 一、编程实现 ### 编程实现DWD层数据处理:WindowJoin package dw.dwd import org.apache.flink.streaming.api.TimeCharacteristic import org.apache.flink.streaming.api.scala 阅读全文

posted @ 2022-04-15 14:57 yanqi_vip 阅读(25) 评论(0) 推荐(0)

|NO.Z.00033|——————————|BigDataEnd|——|Hadoop&实时数仓.V13|——|项目.v13|DWD层处理|数据仓库层数据处理.V3|

摘要: 一、编程实现 ### 编程实现DWD层数据处理:CoProcessFunc package dw.dwd import org.apache.flink.api.common.state.{ValueState, ValueStateDescriptor} import org.apache.fli 阅读全文

posted @ 2022-04-15 14:57 yanqi_vip 阅读(33) 评论(0) 推荐(0)

|NO.Z.00031|——————————|BigDataEnd|——|Hadoop&实时数仓.V11|——|项目.v11|DWD层处理|数据仓库层数据处理.V1|

摘要: 一、DW层处理 ### DW层处理 ~~~ DW(Data Warehouse 数据仓库层)。 ~~~ 包含DWD、DWS、DIM层,由ODS层数据加工而成。主要完成数据加工与整合, ~~~ 建立一致性的维度, ~~~ 构建可复用的面向分析和统计的明细事实表, ~~~ 以及汇总公共粒度的指标。 ~~ 阅读全文

posted @ 2022-04-15 14:56 yanqi_vip 阅读(33) 评论(0) 推荐(0)

|NO.Z.00029|——————————|BigDataEnd|——|Hadoop&实时数仓.V09|——|项目.v09|DIM层处理|从HBash中读取地域维表数据.V2|

摘要: 一、编程实现程序,从ods层下沉数据到dim层 ### HBaseReader:从Hbase中获取数据的类:HBaseReader:从hbash:yanqi_area中读取数据 package dim import java.util import myutils.ConnHBase import 阅读全文

posted @ 2022-04-15 14:55 yanqi_vip 阅读(24) 评论(0) 推荐(0)

|NO.Z.00030|——————————|BigDataEnd|——|Hadoop&实时数仓.V10|——|项目.v10|DIM层处理|从HBash中读取地域维表数据.V3|

摘要: 一、启动相关服务 ### 启动相关服务 ~~~ # 启动zookeeper服务 [root@hadoop01 ~]# ./zk.sh start ~~~ # 启动kafka服务:所有节点 [root@hadoop01 ~]# kafka-server-start.sh -daemon /opt/ya 阅读全文

posted @ 2022-04-15 14:55 yanqi_vip 阅读(40) 评论(0) 推荐(0)

|NO.Z.00027|——————————|BigDataEnd|——|Hadoop&实时数仓.V07|——|项目.v07|ODS层处理|将kafka中的维表写入DIM层.V4|

摘要: 一、将mysql中yanqi_area表下沉到hbas中 ### 在hbash中创建表:yanqi_area ~~~ # 在hbash中创建yanqi_area"表 [root@hadoop02 ~]# /opt/yanqi/servers/hbase-1.3.1/bin/hbase shell h 阅读全文

posted @ 2022-04-15 14:54 yanqi_vip 阅读(28) 评论(0) 推荐(0)

|NO.Z.00028|——————————|BigDataEnd|——|Hadoop&实时数仓.V08|——|项目.v08|DIM层处理|从HBash中读取地域维表数据.V1|

摘要: 一、DIM层处理 ### DIM层处理 ~~~ 最原始的表 mysql中 yanqi_area > (hbase) ~~~ 转化yanqi_area > 地区id,地区的名字,城市的id,城市的名字, 省份的id,省份的名字 ~~~ # --> 存入 hbase中 ~~~ mysql hbase 管 阅读全文

posted @ 2022-04-15 14:54 yanqi_vip 阅读(35) 评论(0) 推荐(0)

|NO.Z.00026|——————————|BigDataEnd|——|Hadoop&实时数仓.V06|——|项目.v06|ODS层处理|将kafka中的维表写入DIM层.V3|

摘要: 一、将mysql中yanqi_trade_orders表下沉到hbas中 ### 在hbash中创建表:yanqi_trade_orders ~~~ # 在hbash中创建yanqi_trade_orders"表 [root@hadoop02 ~]# /opt/yanqi/servers/hbase 阅读全文

posted @ 2022-04-15 14:53 yanqi_vip 阅读(25) 评论(0) 推荐(0)

|NO.Z.00025|——————————|BigDataEnd|——|Hadoop&实时数仓.V05|——|项目.v05|ODS层处理|将kafka中的维表写入DIM层.V2|

摘要: 一、启动相关服务 ### 启动相关服务 ~~~ # 启动zookeeper服务 [root@hadoop01 ~]# ./zk.sh start ~~~ # 启动kafka服务:所有节点 [root@hadoop01 ~]# kafka-server-start.sh -daemon /opt/ya 阅读全文

posted @ 2022-04-15 14:53 yanqi_vip 阅读(14) 评论(0) 推荐(0)

|NO.Z.00023|——————————|BigDataEnd|——|Hadoop&实时数仓.V03|——|项目.v03|EbProject|编程工程工具类.V3|

摘要: 一、编程实现工具类: ### 编程实现工具类一:ConnHBase package myutils import org.apache.hadoop.conf.Configuration import org.apache.hadoop.hbase.{HBaseConfiguration, HCon 阅读全文

posted @ 2022-04-15 14:52 yanqi_vip 阅读(22) 评论(0) 推荐(0)

|NO.Z.00024|——————————|BigDataEnd|——|Hadoop&实时数仓.V04|——|项目.v04|ODS层处理|将kafka中的维表写入DIM层.V1|

摘要: 一、编程实现程序:将Kafka中的维度表写入DIM层 ### 编程实现:KafkaToHBase:将Kafka作为Source,Flink作为消费者从Kafka中获取数据 package ods import java.util import com.alibaba.fastjson.JSON im 阅读全文

posted @ 2022-04-15 14:52 yanqi_vip 阅读(31) 评论(0) 推荐(0)

|NO.Z.00021|——————————|BigDataEnd|——|Hadoop&实时数仓.V01|——|项目.v01|EbProject|创建maven工程EbProject.V1|

摘要: 一、创建一个maven工程:创建一个maven工程:EbProject ### 在pom.xml下导入依赖环境 <dependencies> <dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-scala_2.12</ 阅读全文

posted @ 2022-04-15 14:51 yanqi_vip 阅读(22) 评论(0) 推荐(0)

|NO.Z.00022|——————————|BigDataEnd|——|Hadoop&实时数仓.V02|——|项目.v02|EbProject|编程工程样例类.V2|

摘要: 一、编程实现:样例类 ### 编程实现样例类一:AdClick package modes case class AdClick(area: String, uid:String ,productId: String,timestamp:Long) ### 编程实现样例类二:AreaInfo pac 阅读全文

posted @ 2022-04-15 14:51 yanqi_vip 阅读(19) 评论(0) 推荐(0)

|NO.Z.00020|——————————|BigDataEnd|——————————————————————————————————————

摘要: NO: Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of 阅读全文

posted @ 2022-04-15 14:51 yanqi_vip 阅读(6) 评论(0) 推荐(0)

|NO.Z.00018|——————————|BigDataEnd|——|Hadoop&实时数仓.V18|——|项目.v18|DIM层处理|从HBash中读取地域维表数据.V2|

摘要: 一、编程实现程序,从ods层下沉数据到dim层 ### HBaseReader:从Hbase中获取数据的类:HBaseReader: package dim import java.util //import myutils.ConnHBase import org.apache.flink.con 阅读全文

posted @ 2022-04-15 14:50 yanqi_vip 阅读(20) 评论(0) 推荐(0)

|NO.Z.00019|——————————|BigDataEnd|——|Hadoop&实时数仓.V19|——|项目.v19|DIM层处理|从HBash中读取地域维表数据.V3|

摘要: 一、启动相关服务 ### 启动相关服务 ~~~ # 启动zookeeper服务 [root@hadoop01 ~]# ./zk.sh start ~~~ # 启动kafka服务:所有节点 [root@hadoop01 ~]# kafka-server-start.sh -daemon /opt/ya 阅读全文

posted @ 2022-04-15 14:50 yanqi_vip 阅读(26) 评论(0) 推荐(0)

|NO.Z.00017|——————————|BigDataEnd|——|Hadoop&实时数仓.V17|——|项目.v17|DIM层处理|从HBash中读取地域维表数据.V1|

摘要: 一、DIM层处理 ### DIM层处理 ~~~ 最原始的表 mysql中 yanqi_area > (hbase) ~~~ 转化yanqi_area > 地区id,地区的名字,城市的id,城市的名字, 省份的id,省份的名字 ~~~ # --> 存入 hbase中 ~~~ mysql hbase 管 阅读全文

posted @ 2022-04-15 14:49 yanqi_vip 阅读(30) 评论(0) 推荐(0)

|NO.Z.00016|——————————|BigDataEnd|——|Hadoop&实时数仓.V16|——|项目.v16|ODS层处理|将kafka中的维表写入DIM层.V4|

摘要: 一、启动相关服务 ### 启动相关服务 ~~~ # 启动zookeeper服务 [root@hadoop01 ~]# ./zk.sh start ~~~ # 启动kafka服务:所有节点 [root@hadoop01 ~]# kafka-server-start.sh -daemon /opt/ya 阅读全文

posted @ 2022-04-15 14:48 yanqi_vip 阅读(31) 评论(0) 推荐(0)

|NO.Z.00015|——————————|BigDataEnd|——|Hadoop&实时数仓.V15|——|项目.v15|ODS层处理|将kafka中的维表写入DIM层.V3|

摘要: 一、编程实现程序:将Kafka中的维度表写入DIM层 ### 编程实现:KafkaToHBase:将Kafka作为Source,Flink作为消费者从Kafka中获取数据 package ods import java.util import com.alibaba.fastjson.{JSON, 阅读全文

posted @ 2022-04-15 14:48 yanqi_vip 阅读(27) 评论(0) 推荐(0)

|NO.Z.00013|——————————|BigDataEnd|——|Hadoop&实时数仓.V13|——|项目.v13|ODS层处理|将kafka中的维表写入DIM层.V1|

摘要: 一、创建一个maven工程:创建一个maven工程:EbProject ### 在pom.xml下导入依赖环境 <dependencies> <dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-scala_2.12</ 阅读全文

posted @ 2022-04-15 14:47 yanqi_vip 阅读(24) 评论(0) 推荐(0)

|NO.Z.00014|——————————|BigDataEnd|——|Hadoop&实时数仓.V14|——|项目.v14|ODS层处理|将kafka中的维表写入DIM层.V2|

摘要: 一、编程实现:样例类:将Kafka中的维度表写入DIM层 ### 编程实现样例类一:TableObject package ods /** * 存放mysql log_bin日志信息的样例类 * log_bin日志经过canel转成json发给kafka * flink应用读kafka中json数据 阅读全文

posted @ 2022-04-15 14:47 yanqi_vip 阅读(29) 评论(0) 推荐(0)

|NO.Z.00011|——————————|BigDataEnd|——|Hadoop&实时数仓.V11|——|项目.v11|ODS层处理|Kappa架构|

摘要: 一、Kappa架构 ### Kappa架构 ~~~ 正如前面提到的,Lambda Architecture有其优点和缺点,人们也划分成支持者和反对者两派。 ~~~ Kappa 架构是LinkedIn的Jay Kreps结合实际经验和个人体会, ~~~ 针对Lambda架构进行深度剖析,分析其优缺点并 阅读全文

posted @ 2022-04-15 14:46 yanqi_vip 阅读(49) 评论(0) 推荐(0)

|NO.Z.00012|——————————|BigDataEnd|——|Hadoop&实时数仓.V12|——|项目.v12|ODS层处理|JSON日志数据格式|

摘要: 一、json日志数据格式 ### 样例sql ~~~ # 在mysql中插入数 mysql> INSERT INTO `yanqi_trade_orders` VALUES ('2', '23a0b124546', '121', '2', '0.12', '6331.00', '2', '0', ' 阅读全文

posted @ 2022-04-15 14:46 yanqi_vip 阅读(22) 评论(0) 推荐(0)

|NO.Z.00008|——————————|^^ 部署 ^^|——|Hadoop&实时数仓.V08|——|项目.v08|Canal同步业务数据|Canal部署|

摘要: 一、Canal 安装说明 ### Canal 安装说明 ~~~ 单机模式,也可以将Canal搭建集群模式。 ~~~ 如果要搭建集群模式,可将Canal目录分发给其他虚拟机,然后在各节点中分别启动Canal。 ~~~ 这种Zookeeper为观察者监控的模式, ~~~ 只能实现高可用,而不是负载均衡, 阅读全文

posted @ 2022-04-15 14:45 yanqi_vip 阅读(20) 评论(0) 推荐(0)

|NO.Z.00009|——————————|^^ 配置 ^^|——|Hadoop&实时数仓.V09|——|项目.v09|Canal同步业务数据|kafka客户端测试|

摘要: 一、Kafka客户端测试 ### 启动相关服务 ~~~ # 启动zookeeper服务 [root@hadoop01 ~]# ./zk.sh start ~~~ # 启动kafka服务 [root@hadoop01 ~]# kafka-server-start.sh -daemon /opt/yan 阅读全文

posted @ 2022-04-15 14:45 yanqi_vip 阅读(29) 评论(0) 推荐(0)

|NO.Z.00010|——————————|BigDataEnd|——|Hadoop&实时数仓.V10|——|项目.v10|ODS层处理|Lambda架构|

摘要: 一、大数据数据仓库的架构: ### 架构体系 ~~~ # 离线大数据架构: ~~~ HDFS存储,hive、mr、spark进行离线计算的传统大数据架构; ~~~ # Lambda架构: ~~~ 在离线大数据架构的基础上增加新链路用于实时数据处理,需要维护离线处理和实时处理两套代码; ~~~ # K 阅读全文

posted @ 2022-04-15 14:45 yanqi_vip 阅读(50) 评论(0) 推荐(0)

|NO.Z.00006|——————————|BigDataEnd|——|Hadoop&实时数仓.V06|——|项目.v06|Canal同步业务数据|环境准备|初始Canal|

摘要: 一、Canal同步业务数据 ### 环境准备 ~~~ Hadoop、HBASE、Flink、ClickHouse、MySQL、Canal、Kafka ### 初始Canal:什么是 Canal ~~~ 阿里巴巴B2B公司,因为业务的特性,卖家主要集中在国内,买家主要集中在国外, ~~~ 所以衍生出了 阅读全文

posted @ 2022-04-15 14:44 yanqi_vip 阅读(23) 评论(0) 推荐(0)

|NO.Z.00007|——————————|^^ 配置 ^^|——|Hadoop&实时数仓.V07|——|项目.v07|Canal同步业务数据|配置MySQL的binlog|

摘要: 一、配置MySQL的binlog ### 常见的binlog命令 ~~~ # 是否启用binlog日志 mysql> show variables like 'log_bin'; + + + | Variable_name | Value | + + + | log_bin | ON | + + + 阅读全文

posted @ 2022-04-15 14:44 yanqi_vip 阅读(13) 评论(0) 推荐(0)

上一页 1 ··· 4 5 6 7 8 9 10 11 12 ··· 69 下一页

导航