会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
艳荀
博客园
首页
新随笔
联系
订阅
管理
2019年1月12日
Flume部署总结
摘要: 拦截器 一、需求的产生 因生产需求,要将kafka中的数据上传至hdfs,所以计划部署flume来完成。 1.需要将kafkaSource中的json数据解析成需要的数据格式,落地至hdfs,供hive加载,所以此处需要自定义拦截器,对event.body进行逻辑解析。 2.同时因为不同ka
阅读全文
posted @ 2019-01-12 10:52 艳荀
阅读(414)
评论(0)
推荐(0)
2018年12月8日
随机流修改文本内容
摘要: package com.oldboy.hbase; import java.io.*; public class Edit { public static void main(String[] args) throws IOException { File file = new File("G:\\MyVirtual\\CentOS-7-x86_64-Minimal...
阅读全文
posted @ 2018-12-08 17:40 艳荀
阅读(198)
评论(0)
推荐(0)
2018年12月2日
Spark读取Hbase数据的几种方法
摘要: 1、传统方法: 这种方式就是常用的TableInputFormat和TableOutputFormat来读写hbase; 用sc.newAPIHadoopRDD根据conf中配置好的scan来从Hbase的数据列族中读取包含(ImmutableBytesWritable, Result)的RDD,随
阅读全文
posted @ 2018-12-02 21:12 艳荀
阅读(1819)
评论(0)
推荐(0)
2018年12月1日
RDD、DF、DS的区别与联系
摘要: RDD.DataFrame.DataSet的区别和联系 共性: 1)都是spark中得弹性分布式数据集,轻量级 2)都是惰性机制,延迟计算 3)根据内存情况,自动缓存,加快计算速度 4)都有partition分区概念 5)众多相同得算子:map flatmap 等等 区别: 1)RDD不支持SQL
阅读全文
posted @ 2018-12-01 11:19 艳荀
阅读(4520)
评论(0)
推荐(2)
2018年10月24日
hive 调优
摘要: 1、架构优化 hive和关系型数据刻的区别: 2、MR阶段优化 MR可以主要分为Map、shuffle、Reduce三个阶段。 1)Map优化 2)Reduce优化 3)Shuffle阶段优化 • 压缩中间数据– 减少磁盘操作– 减少网络传输数据量• 配置方法: ***在hive端设置中间文件是否压
阅读全文
posted @ 2018-10-24 14:37 艳荀
阅读(548)
评论(0)
推荐(0)
2018年10月17日
Spark 广播变量 TorrentBroadcast
摘要: 1.需求的出现 当我们在driver端调度spark作用的过程中,需要向各个节点发送任务“数据”--Rdd,一个般一个Rdd会对应多个任务,没一个任务可以交给一个excutor执行,而一个excutor可以开启多个线程去计算,那么此时每个线程都要从Driver端获取Rdd,那样就会产生大量的副本,当
阅读全文
posted @ 2018-10-17 13:57 艳荀
阅读(416)
评论(0)
推荐(0)
Spark 的四种模式
摘要: 1.spark主要有四种运行模式:Local、standalone、yarn、mesos。 1)Local模式:在一台机器上,一般用于开发测试 2)standalone模式:完全独立的spark集群,不依赖其他集群,分为Master和work。 客户端向Master注册应用,Master向work发
阅读全文
posted @ 2018-10-17 09:48 艳荀
阅读(1575)
评论(0)
推荐(0)
公告