艳荀 - 博客园

2019年1月12日

摘要：拦截器一、需求的产生因生产需求，要将kafka中的数据上传至hdfs，所以计划部署flume来完成。 1.需要将kafkaSource中的json数据解析成需要的数据格式，落地至hdfs，供hive加载，所以此处需要自定义拦截器，对event.body进行逻辑解析。 2.同时因为不同ka 阅读全文

posted @ 2019-01-12 10:52 艳荀阅读(417) 评论(0) 推荐(0)

2018年12月8日

随机流修改文本内容

摘要： package com.oldboy.hbase; import java.io.*; public class Edit { public static void main(String[] args) throws IOException { File file = new File("G:\\MyVirtual\\CentOS-7-x86_64-Minimal... 阅读全文

posted @ 2018-12-08 17:40 艳荀阅读(205) 评论(0) 推荐(0)

2018年12月2日

Spark读取Hbase数据的几种方法

摘要： 1、传统方法：这种方式就是常用的TableInputFormat和TableOutputFormat来读写hbase；用sc.newAPIHadoopRDD根据conf中配置好的scan来从Hbase的数据列族中读取包含(ImmutableBytesWritable, Result)的RDD,随阅读全文

posted @ 2018-12-02 21:12 艳荀阅读(1836) 评论(0) 推荐(0)

2018年12月1日

RDD、DF、DS的区别与联系

摘要： RDD.DataFrame.DataSet的区别和联系共性: 1）都是spark中得弹性分布式数据集，轻量级 2）都是惰性机制，延迟计算 3）根据内存情况，自动缓存，加快计算速度 4）都有partition分区概念 5）众多相同得算子：map flatmap 等等区别： 1）RDD不支持SQL 阅读全文

posted @ 2018-12-01 11:19 艳荀阅读(4547) 评论(0) 推荐(2)

2018年10月24日

hive 调优

摘要： 1、架构优化 hive和关系型数据刻的区别： 2、MR阶段优化 MR可以主要分为Map、shuffle、Reduce三个阶段。 1）Map优化 2）Reduce优化 3）Shuffle阶段优化 • 压缩中间数据– 减少磁盘操作– 减少网络传输数据量• 配置方法： ***在hive端设置中间文件是否压阅读全文

posted @ 2018-10-24 14:37 艳荀阅读(565) 评论(0) 推荐(0)

2018年10月17日

Spark 广播变量 TorrentBroadcast

摘要： 1.需求的出现当我们在driver端调度spark作用的过程中，需要向各个节点发送任务“数据”--Rdd，一个般一个Rdd会对应多个任务，没一个任务可以交给一个excutor执行，而一个excutor可以开启多个线程去计算，那么此时每个线程都要从Driver端获取Rdd,那样就会产生大量的副本，当阅读全文

posted @ 2018-10-17 13:57 艳荀阅读(430) 评论(0) 推荐(0)

Spark 的四种模式

摘要： 1.spark主要有四种运行模式：Local、standalone、yarn、mesos。 1）Local模式：在一台机器上，一般用于开发测试 2）standalone模式：完全独立的spark集群，不依赖其他集群，分为Master和work。客户端向Master注册应用，Master向work发阅读全文

posted @ 2018-10-17 09:48 艳荀阅读(1592) 评论(0) 推荐(0)

艳荀

公告