大数据技术栈 - 随笔分类(第5页) - kris12

Java反编译

摘要：工具下载：https://varaneckas.com/jad/ 以下假设jad.exe在c:\java目录下一、基本用法 Usage:jad [option(s)] 直接输入类文件名，且支持通配符，如下所示。 c:\java\>jad example1.class c:\java\>jad *.c 阅读全文

posted @ 2019-07-22 23:59 kris12 阅读(1153) 评论(0) 推荐(0)

DataX

摘要：MySQL ---> HDFS； HDFS ----> MySQL Mongodb --> HDFS； Mongodb --> MySQL；阅读全文

posted @ 2019-07-15 00:14 kris12 阅读(2513) 评论(0) 推荐(1)

BigData

摘要：数仓| 离线& 实时 Flume数据采集的搭建及其架构原理 Kafka Hadoop Hive Spark Flink Mysql& Redis Hbase ELK 调度框架 Linux 常用工具 TRANSLATE with x English Arabic Hebrew Polish Bulga 阅读全文

posted @ 2019-06-01 14:14 kris12 阅读(1223) 评论(0) 推荐(0)

数据清洗

摘要：hadoop fs -rm -r -skipTrash /flumu //删除跳过垃圾回收站导入数据到HDFS [kris@hadoop102 ~]$ hadoop fs -mkdir -p /user/hive/warehouse/ods.db/origin_user_behavior/2019 阅读全文

posted @ 2019-05-19 00:22 kris12 阅读(498) 评论(0) 推荐(0)

指标的统计分析

只有注册用户登录后才能阅读该文。

posted @ 2019-05-19 00:00 kris12 阅读(117) 评论(0) 推荐(0)

Fink| 实时热门商品

摘要：HotNItems 拓展需求：实时统计双十一下单量，实时统计成交额，实时查看锅炉温度变化曲线，每个5分钟看一下过去一个小时温度变化曲线，涉及到的技术点：sliding window、Watermark、event time 用到的算子或者说叫链式调用：keyby、timeWindow、aggreg 阅读全文

posted @ 2019-05-13 21:12 kris12 阅读(481) 评论(0) 推荐(0)

Fink| CEP

摘要：1. 复杂事件处理CEP 复杂事件处理（Complex Event Processing, CEP）；（复杂的逻辑关系，谁前谁后，可以通过自定义processing function，状态编程，设置定时器来实现，但是比较复杂） Flink CEP是在Flink中实现的复杂事件处理（CEP）库； C 阅读全文

posted @ 2019-05-13 21:12 kris12 阅读(634) 评论(0) 推荐(0)

Fink| source| transform| sink

摘要：Flink 流处理Api 1. Environment getExecutionEnvironment 创建一个执行环境，表示当前执行程序的上下文。如果程序是独立调用的，则此方法返回本地执行环境；如果从命令行客户端调用程序以提交到集群，则此方法返回此集群的执行环境，也就是说，getExecutio 阅读全文

posted @ 2019-05-13 13:23 kris12 阅读(1064) 评论(0) 推荐(0)

实时--1.0 需求分析| 整体架构

摘要：1. 需求分析离线T+1 需求一般是根据前一日的数据生成报表等数据，虽然统计指标、报表繁多，但是对时效性不敏感。实时T+0 需求主要侧重于对当日数据的实时监控，通常业务逻辑相对离线需求简单一下，统计指标也少一些，但是更注重数据的时效性，以及用户的交互性。即席需求临时需求，可用即席查询如Im 阅读全文

posted @ 2019-05-12 21:16 kris12 阅读(605) 评论(0) 推荐(0)

实时--1.2 日志数据| 日活DAU

摘要：1. 日活DAU ① SparkStreaming消费kafka数据 Kafka作为数据来源，从kafka中获取日志，kafka中的日志类型有两种，启动和事件，统计日活，只获取启动日志即可。 1. 从Redis中获取Kafka分区偏移量（将偏移量存储到redis中，手动维护kafka偏移量） 2 阅读全文

posted @ 2019-05-12 21:07 kris12 阅读(1465) 评论(0) 推荐(0)

Canal-HA | 搭建| 配置| 使用

摘要：1.canal数据采集 Canal是用java开发的基于数据库增量日志解析，提供增量数据订阅&消费的中间件。目前，Canal主要支持了MySQL的Binlog解析，解析完成后才利用Canal Client 用来处理获得的相关数据。（数据库同步需要阿里的otter中间件，基于Canal）同步mys 阅读全文

posted @ 2019-05-12 16:54 kris12 阅读(1205) 评论(0) 推荐(0)

实时--1.3 业务数据| 采集| 事实表与维表关联

摘要：业务数据需求分析：当日新增付费用户首单分析按省份| 用户性别| 用户年龄段，统计当日新增付费用户首单平均消费及人数占比无论是省份名称、用户性别、用户年龄，订单表中都没有这些字段，需要订单（事实表）和维度表（省份、用户）进行关联，形成宽表后将数据写入到ES，通过Kibana进行分析以及图形展示阅读全文

posted @ 2019-05-12 16:43 kris12 阅读(824) 评论(0) 推荐(0)

实时--1.4 业务数据| 事实表与事实表的关联| 双流Join

摘要：订单明细实付金额分摊以及交易额统计需求分析主订单的应付金额【origin_total_amount】一般是由所有订单明细的商品单价 * 数量汇总【sku_price * sku_num】组成。但是由于优惠、运费等都是以订单为单位进行计算的，所以减掉优惠、加上运费会得到一个最终实付金额【fina 阅读全文

posted @ 2019-05-12 15:07 kris12 阅读(1584) 评论(0) 推荐(0)

Nginx

摘要：1. 定义 Nginx ("engine x") 是一个高性能的HTTP和反向代理服务器；特点是占有内存少，并发能力强，事实上nginx的并发能力确实在同类型的网页服务器中表现较好，中国大陆使用nginx网站用户有：百度、京东、新浪、网易、腾讯、淘宝等。 Nginx 是由俄罗斯人 Igor Sys 阅读全文

posted @ 2019-05-09 00:36 kris12 阅读(310) 评论(0) 推荐(0)

SpringBoot

摘要：SpringBoot 1. Spring Boot 约定大于配置 Spring Boot 是由 Pivotal 团队提供的全新框架，其设计目的是用来简化新 Spring 应用的初始搭建以及开发过程。该框架使用了特定的方式来进行配置，从而使开发人员不再需要定义样板化的配置。有了springboot 阅读全文

posted @ 2019-05-09 00:15 kris12 阅读(244) 评论(0) 推荐(0)

volatile | CAS| ABA

只有注册用户登录后才能阅读该文。

posted @ 2019-05-07 18:03 kris12 阅读(56) 评论(0) 推荐(0)

摘要：1. 调度策略 TaskScheduler会先把DAGScheduler给过来的TaskSet封装成TaskSetManager扔到任务队列里，然后再从任务队列里按照一定的规则把它们取出来在SchedulerBackend给过来的Executor上运行。这个调度过程实际上还是比较粗粒度的，是面向Ta 阅读全文

posted @ 2019-05-07 17:58 kris12 阅读(834) 评论(0) 推荐(0)

JUC

只有注册用户登录后才能阅读该文。

posted @ 2019-05-07 17:57 kris12 阅读(44) 评论(0) 推荐(0)

Java锁机制

只有注册用户登录后才能阅读该文。

posted @ 2019-05-07 13:26 kris12 阅读(141) 评论(0) 推荐(1)

kris12

Self-discipline gives me freedom.

随笔分类 - 大数据技术栈

公告