上一页 1 ··· 18 19 20 21 22 23 24 25 26 ··· 69 下一页

2022年4月10日

|NO.Z.00011|——————————|BigDataEnd|——|Hadoop&PB级数仓.V03|——|PB数仓.v03|会员活跃度分析|hdfs sink|

摘要: 一、日志采集配置:hdfs sink配置 ### 日志采集配置:hdfs sink配置 a1.sinks.k1.type = hdfs a1.sinks.k1.hdfs.path = /user/data/logs/start/%Y-%m-%d/ a1.sinks.k1.hdfs.filePrefi 阅读全文

posted @ 2022-04-10 14:15 yanqi_vip 阅读(24) 评论(0) 推荐(0)

|NO.Z.00009|——————————|BigDataEnd|——|Hadoop&PB级数仓.V01|——|PB数仓.v01|会员活跃度分析|需求说明|日志数据采集|

摘要: 一、电商分析之--会员活跃度 ### 需求分析 ~~~ 会员数据是后期营销的很重要的数据。网店会专门针对会员进行一系列营销活动。 ~~~ 电商会员一般门槛较低,注册网站即可加入。 ~~~ 有些电商平台的高级会员具有时效性,需要购买VIP会员卡或一年内消费额达到多少才能成为高级会员。 ~~~ # 计算 阅读全文

posted @ 2022-04-10 14:14 yanqi_vip 阅读(47) 评论(0) 推荐(0)

|NO.Z.00007|——————————|BigDataEnd|——|Hadoop&PB级数仓.V07|——|PB数仓.v07|数仓设计|技术|逻辑|开发|数仓命名规范|

摘要: 一、总体架构设计:技术方案选型 ### 技术方案选型 ~~~ 框架选型 ~~~ 软件选型 ~~~ 服务器选型 ~~~ 集群规模的估算 ### 框架选型 ~~~ Apache / 第三方发行版(CDH / HDP / Fusion Insight) ~~~ # Apache社区版本优点: ~~~ 完全 阅读全文

posted @ 2022-04-10 14:13 yanqi_vip 阅读(79) 评论(0) 推荐(0)

|NO.Z.00008|——————————|BigDataEnd|——————————————————————————————————————

摘要: NO: Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of 阅读全文

posted @ 2022-04-10 14:13 yanqi_vip 阅读(15) 评论(0) 推荐(0)

|NO.Z.00005|——————————|BigDataEnd|——|Hadoop&PB级数仓.V05|——|PB数仓.v05|数仓模型|元数据|

摘要: 一、数据仓库模型 ### 事实表与维度表 ~~~ 在数据仓库中,保存度量值的详细值或事实的表称为事实表。 ~~~ 事实数据表通常包含大量的行。 ~~~ 事实数据表的主要特点是包含数字数据(事实),并且这些数字信息可以汇总, ~~~ 以提供有关单位作为历史的数据。事实表的粒度决定了数据仓库中数据的详细 阅读全文

posted @ 2022-04-10 14:12 yanqi_vip 阅读(33) 评论(0) 推荐(0)

|NO.Z.00006|——————————|BigDataEnd|——|Hadoop&PB级数仓.V06|——|PB数仓.v06|数仓设计|需求分析|数仓埋点|数据指标体系|

摘要: 一、电商离线数仓设计 ### 需求分析 ~~~ 近年来,中国的电子商务快速发展,交易额连创新高, ~~~ 电子商务在各领域的应用不断拓展和深化、 ~~~ 相关服务业蓬勃发展、支撑体系不断健全完善、创新的动力和能力 不断增强。 ~~~ 电子商务正在与实体经济深度融合,进入规模性发展阶段,对经济社会生活 阅读全文

posted @ 2022-04-10 14:12 yanqi_vip 阅读(62) 评论(0) 推荐(0)

|NO.Z.00004|——————————|BigDataEnd|——|Hadoop&PB级数仓.V04|——|PB数仓.v04|数仓理论|数仓分层|

摘要: 一、数据仓库分层 ### 数据仓库分层 ~~~ 数据仓库更多代表的是一种对数据的管理和使用的方式, ~~~ 它是一整套包括了数据建模、ETL(数据抽取、转换、加载)、 ~~~ 作用调度等在内的完整的理论体系流程。数据仓库在构建过程中通常都需要进行分层处理。 ~~~ 业务不同,分层的技术处理手段也不同 阅读全文

posted @ 2022-04-10 14:10 yanqi_vip 阅读(56) 评论(0) 推荐(0)

|NO.Z.00002|——————————|BigDataEnd|——|Hadoop&PB级数仓.V02|——|PB数仓.v02|数仓概念|数据集市|

摘要: 一、数据仓库 ### [数仓理论] ~~~ [数据仓库:数仓概念] ~~~ [数据仓库:数仓特征] ~~~ [数据仓库与数据库的区别] ~~~ [数据仓库:数据集市] ### 什么是数据仓库 ~~~ 1988年,为解决全企业集成问题,IBM公司第一次提出了信息仓库(InformationWareho 阅读全文

posted @ 2022-04-10 14:09 yanqi_vip 阅读(28) 评论(0) 推荐(0)

|NO.Z.00003|——————————|BigDataEnd|——|Hadoop&PB级数仓.V03|——|PB数仓.v03|数仓理论|建模方法|

摘要: 一、数据仓库建模方法 ### 数据仓库建模方法 ~~~ # 数据模型就是数据组织和存储方法,它强调从业务、数据存取和使用角度合理存储数据。 ~~~ # 有了适合业务和基础数据存储环境的模型,能获得以下好处: ~~~ 性能:良好的数据模型能帮助我们快速查询所需要的数据,减少数据的I/O吞吐 ~~~ 成 阅读全文

posted @ 2022-04-10 14:09 yanqi_vip 阅读(15) 评论(0) 推荐(0)

|NO.Z.00001|——————————|BigDataEnd|——|Hadoop&PB级数仓.V01|——|PB数仓.v01|数据仓库|项目背景|

摘要: 一、项目背景 ### 项目背景 ~~~ 人类正从IT时代走向DT(Data Technology)时代。 ~~~ 在DT时代,人们比以往任何时候更能收集到更丰富的数据。 ~~~ IDC 的报告显示:预计到2020年,全球数据总量将超过40ZB(相当于40 万亿GB), ~~~ 这一数据量是2011年 阅读全文

posted @ 2022-04-10 14:08 yanqi_vip 阅读(25) 评论(0) 推荐(0)

|NO.Z.10000|——————————|BigDataEnd|——————————————————————————————————————

摘要: NO: Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of 阅读全文

posted @ 2022-04-10 14:07 yanqi_vip 阅读(7) 评论(0) 推荐(0)

|NO.Z.00000|——————————|BigDataEnd|——————————————————————————————————————

摘要: NO: Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of 阅读全文

posted @ 2022-04-10 14:07 yanqi_vip 阅读(4) 评论(0) 推荐(0)

|NO.Z.00100|——————————|BigDataEnd|——|Hadoop&kafka.V07|——|kafka.v07|Kafka源码剖析|Producer消费者流程.v03|

摘要: 一、自动提交 ### 自动提交 ~~~ 最简单的提交方式是让悄费者自动提交偏移量。 ~~~ 如果enable.auto.commit被设为 true,消费者会自动把从 poll() 方法接收到的最大偏移量提交上去。 ~~~ 提交时间间隔由 auto.commit.interval.ms 控制,默认值 阅读全文

posted @ 2022-04-10 14:06 yanqi_vip 阅读(35) 评论(0) 推荐(0)

|NO.Z.00101|——————————|BigDataEnd|——————————————————————————————————————

摘要: NO: Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of 阅读全文

posted @ 2022-04-10 14:06 yanqi_vip 阅读(7) 评论(0) 推荐(0)

|NO.Z.00097|——————————|BigDataEnd|——|Hadoop&kafka.V04|——|kafka.v04|Kafka源码剖析|Producer生产者流程|

摘要: 一、Kafka源码剖析之Producer生产者流程 ### Producer示例 ~~~ 首先我们先通过一段代码来展示KafkaProducer 的使用方法。 ~~~ 在下面的示例中,我们使用KafkaProducer 实现向kafka发送消息的功能。 ~~~ 在示例程序中,首先将KafkaProd 阅读全文

posted @ 2022-04-10 14:05 yanqi_vip 阅读(34) 评论(0) 推荐(0)

|NO.Z.00098|——————————|BigDataEnd|——|Hadoop&kafka.V05|——|kafka.v05|Kafka源码剖析|Producer消费者流程.v01|

摘要: 一、Kafka源码剖析之Consumer消费者流程 ### Consumer示例 ~~~ # KafkaConsumer ~~~ 消费者的根本目的是从Kafka服务端拉取消息,并交给业务逻辑进行处理。 ~~~ 开发人员不必关心与Kafka服务端之间网络连接的管理、 ~~~ 心跳检测、请求超时重试等底 阅读全文

posted @ 2022-04-10 14:05 yanqi_vip 阅读(37) 评论(0) 推荐(0)

|NO.Z.00099|——————————|BigDataEnd|——|Hadoop&kafka.V06|——|kafka.v06|Kafka源码剖析|Producer消费者流程.v02|

摘要: 一、订阅Topic ### 订阅Topic ~~~ 下面我们先来看一下subscribe方法都有哪些逻辑 public void subscribe(Collection<String> topics, ConsumerRebalanceListenerlistener) { // 轻量级锁 acq 阅读全文

posted @ 2022-04-10 14:05 yanqi_vip 阅读(56) 评论(0) 推荐(0)

|NO.Z.00096|——————————|BigDataEnd|——|Hadoop&kafka.V03|——|kafka.v03|Kafka源码剖析|Topic创建流程|

摘要: 一、Kafka源码剖析之Topic创建流程 ### Topic创建 ~~~ 有两种创建方式:自动创建、手动创建。 ~~~ 在server.properties中配置auto.create.topics.enable=true 时, ~~~ kafka在发现该topic不存在的时候会按照默认配置自动创 阅读全文

posted @ 2022-04-10 14:04 yanqi_vip 阅读(101) 评论(0) 推荐(0)

|NO.Z.00094|——————————|^^ 部署 ^^|——|Hadoop&kafka.V01|——|kafka.v01|源码阅读|环境搭建|

摘要: 一、Kafka源码剖析之源码阅读环境搭建 ### [kafka高级特性解析] ~~~ [源码剖析:源码阅读环境搭建] ~~~ [源码剖析:部署gradle] ~~~ [源码剖析:部署scala] ~~~ [源码剖析:IDEA导入源码] ~~~ [源码剖析:IDEA导入源码后设置] ### 官网地址下 阅读全文

posted @ 2022-04-10 14:03 yanqi_vip 阅读(70) 评论(0) 推荐(0)

|NO.Z.00095|——————————|BigDataEnd|——|Hadoop&kafka.V02|——|kafka.v02|Kafka源码剖析|Broker启动流程|

摘要: 一、Kafka源码剖析之Broker启动流程 ### 启动kafka:kafka-server-start.sh内容如下: ~~~ 命令如下: kafka-server-start.sh /opt/kafka_2.12-1.0.2/config/server.properties if [ $# - 阅读全文

posted @ 2022-04-10 14:03 yanqi_vip 阅读(34) 评论(0) 推荐(0)

|NO.Z.00093|——————————|BigDataEnd|——————————————————————————————————————

摘要: NO: Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of 阅读全文

posted @ 2022-04-10 14:02 yanqi_vip 阅读(10) 评论(0) 推荐(0)

|NO.Z.00091|——————————|^^ 部署 ^^|——|Hadoop&kafka.V05|——|kafka.v05|监控工具KafkaEagle.v01|

摘要: 一、监控工具 Kafka Eagle ### 监控工具kafka Eagle ~~~ 我们可以使用Kafka-eagle管理Kafka集群 ~~~ 自行编译官网, https://github.com/smartloli/kafka-eagle ### 核心模块: ~~~ # 面板可视化 ~~~ 主 阅读全文

posted @ 2022-04-10 14:01 yanqi_vip 阅读(52) 评论(0) 推荐(0)

|NO.Z.00092|——————————|BigDataEnd|——|Hadoop&kafka.V06|——|kafka.v06|监控工具KafkaEagle.v02|

摘要: 附录一:system-config.properties文本二 [root@hadoop01 conf]# pwd /opt/yanqi/servers/kafka-eagle/kafka-eagle-web/target/test/kafka-eagle-web-2.0.1/conf [root@ 阅读全文

posted @ 2022-04-10 14:01 yanqi_vip 阅读(34) 评论(0) 推荐(0)

|NO.Z.00090|——————————|BigDataEnd|——|Hadoop&kafka.V04|——|kafka.v04|编程手段获取监控指标|

摘要: 一、编程手段获取监控指标:查看要监控哪个指标 二、监控指标项目准备主题数据 ### 查看现有的主题 [root@hadoop01 ~]# kafka-topics.sh --zookeeper localhost:2181/myKafka --describe --topic topic_x Top 阅读全文

posted @ 2022-04-10 14:00 yanqi_vip 阅读(36) 评论(0) 推荐(0)

|NO.Z.00088|——————————|^^ 部署 ^^|——|Hadoop&kafka.V02|——|kafka.v02|集群搭建|

摘要: 一、集群搭建:搭建设计 ### 分配三台Linux,用于安装拥有三个节点的Kafka集群。 Hadoop01 192.168.1.111 Hadoop02 192.168.1.122 Hadoop03 192.168.1.133 二、部署kafka集群:配置hosts文件 ### 以上三台主机的/e 阅读全文

posted @ 2022-04-10 13:59 yanqi_vip 阅读(48) 评论(0) 推荐(0)

|NO.Z.00089|——————————|BigDataEnd|——|Hadoop&kafka.V03|——|kafka.v03|监控度量指标|

摘要: 一、集群监控:监控度量指标 ### 监控度量指标 ~~~ Kafka使用Yammer Metrics在服务器和Scala客户端中报告指标。 ~~~ Java客户端使用Kafka Metrics,它是一个内置的度量标准注册表, ~~~ 可最大程度地减少拉入客户端应用程序的传递依赖项。 ~~~ 两者都通 阅读全文

posted @ 2022-04-10 13:59 yanqi_vip 阅读(47) 评论(0) 推荐(0)

|NO.Z.00087|——————————|BigDataEnd|——|Hadoop&kafka.V01|——|kafka.v01|集群与运维|集群应用场景|

摘要: 一、集群应用场景 ### 消息传递 ~~~ Kafka可以很好地替代传统邮件代理。 ~~~ 消息代理的使用有多种原因(将处理与数据生产者分离,缓冲未处理的消息等)。 ~~~ 与大多数邮件系统相比,Kafka具有更好的吞吐量,内置的分区,复制和容错功能,这 ~~~ 使其成为大规模邮件处理应用程序的理想 阅读全文

posted @ 2022-04-10 13:58 yanqi_vip 阅读(34) 评论(0) 推荐(0)

|NO.Z.00086|——————————|BigDataEnd|——————————————————————————————————————

摘要: NO: Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of 阅读全文

posted @ 2022-04-10 13:58 yanqi_vip 阅读(11) 评论(0) 推荐(0)

|NO.Z.00085|——————————|BigDataEnd|——|Hadoop&kafka.V70|——|kafka.v70|稳定性|重试队列.v02|

摘要: 一、编程代码实现 ### AppConfig.java package com.yanqi.kafka.demo.config; import org.springframework.context.annotation.Bean; import org.springframework.contex 阅读全文

posted @ 2022-04-10 13:57 yanqi_vip 阅读(31) 评论(0) 推荐(0)

|NO.Z.00083|——————————|BigDataEnd|——|Hadoop&kafka.V68|——|kafka.v68|稳定性|延时队列|

摘要: 一、延时队列 ### 延时队列 ~~~ 两个follower副本都已经拉取到了leader副本的最新位置,此时又向leader副本发送拉取请求, ~~~ 而leader副本并没有新的消息写入,那么此时leader副本该如何处理呢? ~~~ 可以直接返回空的拉取结果给follower副本,不过在lea 阅读全文

posted @ 2022-04-10 13:56 yanqi_vip 阅读(39) 评论(0) 推荐(0)

|NO.Z.00084|——————————|BigDataEnd|——|Hadoop&kafka.V69|——|kafka.v69|稳定性|重试队列.v01|

摘要: 一、重试队列 ### 重试队列 ~~~ kafka没有重试机制不支持消息重试,也没有死信队列,因此使用kafka做消息队列时, ~~~ 需要自己实现消息重试的功能。 ### 实现:创建新的kafka主题作为重试队列: ~~~ 创建一个topic作为重试topic,用于接收等待重试的消息。 ~~~ 普 阅读全文

posted @ 2022-04-10 13:56 yanqi_vip 阅读(28) 评论(0) 推荐(0)

|NO.Z.00082|——————————|BigDataEnd|——|Hadoop&kafka.V67|——|kafka.v67|稳定性|__consumer_offsets主题|

摘要: 一、 _consumer_offsets主题 ### zookeeper不适合大批量的频繁写入操作 ~~~ Zookeeper不适合大批量的频繁写入操作。 ~~~ Kafka 1.0.2将consumer的位移信息保存在Kafka内部的topic中,即__consumer_offsets主题, ~~ 阅读全文

posted @ 2022-04-10 13:55 yanqi_vip 阅读(26) 评论(0) 推荐(0)

|NO.Z.00080|——————————|BigDataEnd|——|Hadoop&kafka.V65|——|kafka.v65|消息重复场景|解决方案.v01|

摘要: 一、生产者阶段重复场景 ### 消息重复的场景及解决方案 ~~~ # 消息重复和丢失是kafka中很常见的问题,主要发生在以下三个阶段: ~~~ 生产者阶段 ~~~ broke阶段 ~~~ 消费者阶段 ### 根本原因 ~~~ 生产发送的消息没有收到正确的broke响应,导致生产者重试。 ~~~ 生 阅读全文

posted @ 2022-04-10 13:54 yanqi_vip 阅读(32) 评论(0) 推荐(0)

|NO.Z.00081|——————————|BigDataEnd|——|Hadoop&kafka.V66|——|kafka.v66|消息重复场景|解决方案.v02|

摘要: 一、消费者数据重复场景及解决方案 ### 根本原因 ~~~ 数据消费完没有及时提交offset到broker。 ### 场景 ~~~ 消息消费端在消费过程中挂掉没有及时提交offset到broke, ~~~ 另一个消费端启动拿之前记录的offset开始消费, ~~~ 由于offset的滞后性可能会导 阅读全文

posted @ 2022-04-10 13:54 yanqi_vip 阅读(19) 评论(0) 推荐(0)

|NO.Z.00078|——————————|BigDataEnd|——|Hadoop&kafka.V63|——|kafka.v63|稳定性|一致性保证.v03|

摘要: 一、HW和LEO异常案例 ### HW和LEO异常案例 ~~~ Kafka使用HW值来决定副本备份的进度,而HW值的更新通常需要额外一轮FETCH RPC才能完成。 ~~~ 但这种设计是有问题的,可能引起的问题包括: ~~~ 备份数据丢失 ~~~ 备份数据不一致 ### 数据丢失 ~~~ 使用HW值 阅读全文

posted @ 2022-04-10 13:53 yanqi_vip 阅读(27) 评论(0) 推荐(0)

|NO.Z.00079|——————————|BigDataEnd|——|Hadoop&kafka.V64|——|kafka.v64|稳定性|一致性保证.v04|

摘要: 一、Leader Epoch使用 ### Kafka解决方案:造成上述两个问题的根本原因在于 ~~~ # HW值被用于衡量副本备份的成功与否。 ~~~ # 在出现失败重启时作为日志截断的依据。 ~~~ 但HW值的更新是异步延迟的,特别是需要额外的FETCH请求处理流程才能更新, ~~~ 故这中间发生 阅读全文

posted @ 2022-04-10 13:53 yanqi_vip 阅读(27) 评论(0) 推荐(0)

|NO.Z.00077|——————————|BigDataEnd|——|Hadoop&kafka.V62|——|kafka.v62|稳定性|一致性保证.v02|

摘要: 一、HW和LEO正常更新案例 ### HW和LEO正常更新案例 ~~~ 我们假设有一个topic,单分区,副本因子是2,即一个Leader副本和一个Follower副本。 ~~~ 我们看下当producer发送一条消息时broker端的副本到底会发生什么事情以及分区HW是如何被更新的。 ### 初始 阅读全文

posted @ 2022-04-10 13:52 yanqi_vip 阅读(26) 评论(0) 推荐(0)

|NO.Z.00075|——————————|BigDataEnd|——|Hadoop&kafka.V60|——|kafka.v60|稳定性|可靠性保证|

摘要: 一、可靠性保证 ### 概念 ~~~ 创建Topic的时候可以指定--replication-factor 3 ,表示分区的副本数,不要超过broker的数量。 ~~~ Leader是负责读写的节点,而其他副本则是Follower。 ~~~ Producer只把消息发送到Leader,Followe 阅读全文

posted @ 2022-04-10 13:51 yanqi_vip 阅读(26) 评论(0) 推荐(0)

|NO.Z.00076|——————————|BigDataEnd|——|Hadoop&kafka.V61|——|kafka.v61|稳定性|一致性保证.v01|

摘要: 一、致性保证 ### 概念 ~~~ # 水位标记 ~~~ 水位或水印(watermark)一词,表示位置信息,即位移(offset)。 ~~~ Kafka源码中使用的名字是高水位,HW(high watermark)。 ~~~ # 副本角色 ~~~ Kafka分区使用多个副本(replica)提供高 阅读全文

posted @ 2022-04-10 13:51 yanqi_vip 阅读(36) 评论(0) 推荐(0)

|NO.Z.00073|——————————|BigDataEnd|——|Hadoop&kafka.V58|——|kafka.v58|稳定性|事务操作|

摘要: 一、事务操作 ### 事务操作 ~~~ # 在Kafka事务中,一个原子性操作,根据操作类型可以分为3种情况。情况如下: ~~~ 只有Producer生产消息,这种场景需要事务的介入; ~~~ 消费消息和生产消息并存,比如Consumer&Producer模式, ~~~ 这种场景是一般Kafka项目 阅读全文

posted @ 2022-04-10 13:50 yanqi_vip 阅读(23) 评论(0) 推荐(0)

上一页 1 ··· 18 19 20 21 22 23 24 25 26 ··· 69 下一页

导航