会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
hyunbar
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
8
9
10
11
12
13
14
15
16
···
22
下一页
2020年3月17日
OLAP数据库
摘要: OLAP百家争鸣 OLAP简介 OLAP,也叫联机分析处理(Online Analytical Processing)系统,有的时候也叫DSS决策支持系统,就是我们说的数据仓库。与此相对的是OLTP(on-line transaction processing)联机事务处理系统。 联机分析处理 (O
阅读全文
posted @ 2020-03-17 10:01 hyunbar
阅读(10306)
评论(0)
推荐(0)
2020年3月16日
ClickHouse
摘要: 引言 ClickHouse是近年来备受关注的开源列式数据库,主要用于数据分析(OLAP)领域。目前国内社区火热,各个大厂纷纷跟进大规模使用: 今日头条 内部用ClickHouse来做用户行为分析,内部一共几千个ClickHouse节点,单集群最大1200节点,总数据量几十PB,日增原始数据300TB
阅读全文
posted @ 2020-03-16 21:09 hyunbar
阅读(3182)
评论(0)
推荐(0)
2020年3月14日
SparkSql运行原理详细解析
摘要: 传统关系型数据库中 ,最基本的sql查询语句由projecttion (field a,field b,field c) , datasource (table A) 和 fieter (field a >10) 三部分组成。 分别对应了sql查询过程中的result , datasource和op
阅读全文
posted @ 2020-03-14 12:07 hyunbar
阅读(2050)
评论(0)
推荐(0)
2020年3月11日
Hive优化一
摘要: 一、Hadoop 框架计算特性 1、数据量大不是问题,数据倾斜是个问题 2、jobs 数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次 汇总,产生十几个 jobs,耗时很长。原因是 map reduce 作业初始化的时间是比较长的 3、sum,count,max,min 等
阅读全文
posted @ 2020-03-11 10:19 hyunbar
阅读(211)
评论(0)
推荐(0)
2019年12月22日
Spark启动流程(Standalone)- master源码
摘要: Master源码 1 package org.apache.spark.deploy.master 2 //伴生类 3 private[deploy] class Master( 4 override val rpcEnv: RpcEnv, 5 address: RpcAddress, 6 webU
阅读全文
posted @ 2019-12-22 12:25 hyunbar
阅读(448)
评论(0)
推荐(0)
Spark启动流程(Standalone)-分析
摘要: 1、start-all.sh脚本,实际上执行java -cp Master 和 java -cp Worker 2、Master 启动时首先穿件一个RpcEnv对象,负责管理所有通信逻辑 3、Master 通信RpcEnv对象创建一个Endpoint,Master就是一个Endpoint,Worke
阅读全文
posted @ 2019-12-22 12:22 hyunbar
阅读(961)
评论(0)
推荐(0)
Spark Netty 通信框架解析
摘要: 1、RpcEndpoint: RPC端点 Spark针对每个节点(Client、Master、Worker)都称之为一个RpcEndpoint,且都实现RpcEndpoint接口,内部根据不同端点的需求,设计不同的消息和不同的业务处理,如果需要发送(询问)则内部调用Dispatcher的对应方法 说
阅读全文
posted @ 2019-12-22 12:20 hyunbar
阅读(925)
评论(0)
推荐(0)
Spark内核概述
摘要: 1、Spark核心组件 1.1 Cluster Manager(Master,ResourceManager) Spark的集群管理器,主要负责对整个集群资源的分配与管理 Cluster Manager 在 Yarn 部署模式下为 ResourceManager 在 Mesos 部署模式下为 Mes
阅读全文
posted @ 2019-12-22 12:16 hyunbar
阅读(431)
评论(0)
推荐(0)
2019年12月19日
SparkStreaming DStream转换
摘要: 1、无状态转换操作 (1)无状态转化操作就是把简单的RDD转化操作应用到每个批次上,也就是转换DStream中的每一个RDD。 部分无状态转化操作: (2)尽管这些函数韩起来像作用在整个流上一样,但事实上每个DStream在内部是由许多RDD(批次)组成,且无状态转化操作是分别应用到每个RDD上。
阅读全文
posted @ 2019-12-19 17:28 hyunbar
阅读(675)
评论(0)
推荐(0)
2019年12月17日
Spark-Core RDD依赖关系
摘要: 1、查看 RDD 的血缘关系 说明: 圆括号(2): 2表示RDD的并行度,几个分区 2、查看RDD的依赖关系 RDD之间的关系可以从两个维度来理解: (1)一个是RDD从哪些RDD转换而来,也就是RDD的parent RDD(s)是什么 (2)另一个是RDD依赖于parent RDD(s)的哪些
阅读全文
posted @ 2019-12-17 16:58 hyunbar
阅读(285)
评论(0)
推荐(0)
上一页
1
···
8
9
10
11
12
13
14
15
16
···
22
下一页
公告