摘要:CDH 装完 ES 集群,查看 http://hadoop1:9200 报错 { "error" : { "root_cause" : [ { "type" : "master_not_discovered_exception", "reason" : null } ], "type" : "mas 阅读全文
posted @ 2020-07-27 12:27 六成2020的猿生 阅读(46) 评论(0) 推荐(0) 编辑
摘要:公司的MySQL 生长库杭州库使用的 MySQL8.0版本,美国库使用的是MySQL5.7,我们数仓团队在使用 kettle 从 Mysql 杭州 抽到 mysql American 库的时候,中文字段出现了乱码, 在 Spoon.bat 文件中添加 "-Dfile.encoding=UTF-8": 阅读全文
posted @ 2020-07-09 13:58 六成2020的猿生 阅读(66) 评论(0) 推荐(0) 编辑
摘要:折腾了挺久的,一直以为是安装的CM有问题,重装了一次,还是一样的结果,在网上找到了一个帖子,完美解决!!! //https://blog.csdn.net/u012852188/article/details/106488609 阅读全文
posted @ 2020-07-02 14:08 六成2020的猿生 阅读(150) 评论(0) 推荐(0) 编辑
摘要:对于数仓开发来说,写好一条SQL,需要熟读Hive 源码。hive 默认的优化器有10种,其中这三种比较关键: FilterPPD 会把可以下推的谓词抽取出来,存入OpWalkerInfo.opToPushdownPredMap.pushdownPreds 中 JoinPPD 的主要作用就是把能够下 阅读全文
posted @ 2020-04-30 12:27 六成2020的猿生 阅读(310) 评论(0) 推荐(0) 编辑
摘要:namenode的职责主要分成4类,每个类都可以做一些优化的工作: 1:负责客户端读写请求 2:元数据管理 3:副本存放策略 4:block块的负责均衡 阅读全文
posted @ 2020-04-22 11:51 六成2020的猿生 阅读(193) 评论(0) 推荐(0) 编辑
摘要:1、 在数据采集的时候,就将小文件或小批数据合成大文件再上传 HDFS2、 在业务处理之前,在 HDFS 上使用 MapReduce 程序对小文件进行合并3、 在 MapReduce 处理时,可采用 CombineFileInputFormat 提高效率 阅读全文
posted @ 2020-01-06 14:26 六成2020的猿生 阅读(185) 评论(0) 推荐(0) 编辑
摘要:Hive count 多个度量指标,带有 distinct ,注意点!!! 比如 select organid, ppi, count(id1) as num1, count(distinct id2) as num 2 from table group by organid, ppi这样的 SQL 阅读全文
posted @ 2019-12-20 14:43 六成2020的猿生 阅读(448) 评论(0) 推荐(0) 编辑
摘要:根据工作中经验总结出来 left join 常用的 使用注意点: A Left join B on A.id = B.id 第一种情况: 如果 A 表 的 id 存在 重复, B 表的 id 不存在 重复, 那么 select * from A Left join B on A.id = B.id, 阅读全文
posted @ 2019-12-20 10:38 六成2020的猿生 阅读(1868) 评论(0) 推荐(0) 编辑
摘要:spark 各个版本的application 调度算法还是有这明显的不同之处的。从spark1.3.0 到 spark 1.6.1、spark2.0 到 现在最新的spark 3.0 ,调度算法有了一定的修改。下面大家一起学习一下,最新的spark 版本spark-3.0的Application 调 阅读全文
posted @ 2019-12-04 12:28 六成2020的猿生 阅读(321) 评论(0) 推荐(0) 编辑