摘要: 拦截器 一、需求的产生 因生产需求,要将kafka中的数据上传至hdfs,所以计划部署flume来完成。 ​ 1.需要将kafkaSource中的json数据解析成需要的数据格式,落地至hdfs,供hive加载,所以此处需要自定义拦截器,对event.body进行逻辑解析。 ​ 2.同时因为不同ka 阅读全文
posted @ 2019-01-12 10:52 艳荀 阅读(414) 评论(0) 推荐(0)
摘要: package com.oldboy.hbase; import java.io.*; public class Edit { public static void main(String[] args) throws IOException { File file = new File("G:\\MyVirtual\\CentOS-7-x86_64-Minimal... 阅读全文
posted @ 2018-12-08 17:40 艳荀 阅读(198) 评论(0) 推荐(0)
摘要: 1、传统方法: 这种方式就是常用的TableInputFormat和TableOutputFormat来读写hbase; 用sc.newAPIHadoopRDD根据conf中配置好的scan来从Hbase的数据列族中读取包含(ImmutableBytesWritable, Result)的RDD,随 阅读全文
posted @ 2018-12-02 21:12 艳荀 阅读(1819) 评论(0) 推荐(0)
摘要: RDD.DataFrame.DataSet的区别和联系 共性: 1)都是spark中得弹性分布式数据集,轻量级 2)都是惰性机制,延迟计算 3)根据内存情况,自动缓存,加快计算速度 4)都有partition分区概念 5)众多相同得算子:map flatmap 等等 区别: 1)RDD不支持SQL 阅读全文
posted @ 2018-12-01 11:19 艳荀 阅读(4520) 评论(0) 推荐(2)
摘要: 1、架构优化 hive和关系型数据刻的区别: 2、MR阶段优化 MR可以主要分为Map、shuffle、Reduce三个阶段。 1)Map优化 2)Reduce优化 3)Shuffle阶段优化 • 压缩中间数据– 减少磁盘操作– 减少网络传输数据量• 配置方法: ***在hive端设置中间文件是否压 阅读全文
posted @ 2018-10-24 14:37 艳荀 阅读(548) 评论(0) 推荐(0)
摘要: 1.需求的出现 当我们在driver端调度spark作用的过程中,需要向各个节点发送任务“数据”--Rdd,一个般一个Rdd会对应多个任务,没一个任务可以交给一个excutor执行,而一个excutor可以开启多个线程去计算,那么此时每个线程都要从Driver端获取Rdd,那样就会产生大量的副本,当 阅读全文
posted @ 2018-10-17 13:57 艳荀 阅读(416) 评论(0) 推荐(0)
摘要: 1.spark主要有四种运行模式:Local、standalone、yarn、mesos。 1)Local模式:在一台机器上,一般用于开发测试 2)standalone模式:完全独立的spark集群,不依赖其他集群,分为Master和work。 客户端向Master注册应用,Master向work发 阅读全文
posted @ 2018-10-17 09:48 艳荀 阅读(1575) 评论(0) 推荐(0)