12 2016 档案

摘要:作者:Syn良子 出处:http://www.cnblogs.com/cssdongl 转载请注明出处 一.传统方式 这种方式就是常用的TableInputFormat和TableOutputFormat来读写hbase,如下代码所示 简单解释下,用sc.newAPIHadoopRDD根据conf中 阅读全文
posted @ 2016-12-30 18:57 Syn良子 阅读(46286) 评论(6) 推荐(5)
摘要:作者:Syn良子 出处:http://www.cnblogs.com/cssdongl 转载请注明出处 用Scala编码的时候,经常会遇到scala集合和Java集合互相转换的case,特意mark一下,加深记忆 阅读全文
posted @ 2016-12-30 16:06 Syn良子 阅读(3502) 评论(0) 推荐(0)
摘要:6台物理机,其中三台部署Broker,三台专门用来launch request。 每台物理机:24 Processors,189G Memory,2G 单机带宽。 执行本次测试时为了能够覆盖到到一些“非常规”的用法,我把Broker的HeapSize设置到了30G。 6台物理机,其中三台部署Brok 阅读全文
posted @ 2016-12-27 20:50 Syn良子 阅读(4408) 评论(0) 推荐(0)
摘要:作者:Syn良子 出处:http://www.cnblogs.com/cssdongl 转载请注明出处 大家都知道用mapreduce或者spark写入已知的hbase中的表时,直接在mapreduce或者spark的driver class中声明如下代码 job.getConfiguration( 阅读全文
posted @ 2016-12-27 18:46 Syn良子 阅读(2719) 评论(0) 推荐(0)
摘要:作者:Syn良子 出处:http://www.cnblogs.com/cssdongl 转载请注明出处 译自:http://blog.cloudera.com/blog/2015/03/exactly-once-spark-streaming-from-apache-kafka/ 查资料时发现上面这 阅读全文
posted @ 2016-12-22 12:57 Syn良子 阅读(4265) 评论(0) 推荐(0)
摘要:作者:Syn良子 出处:http://www.cnblogs.com/cssdongl 转载请注明出处 从Hive的官方wiki来看,Hive0.7以后增加了一个对表建立index的功能,想试下性能是否有很大提升,参考了一些资料亲手实现了一遍,记录下过程和心得 一.测试数据准备 1.新建一个gen- 阅读全文
posted @ 2016-12-21 18:26 Syn良子 阅读(2133) 评论(0) 推荐(1)
摘要:作者:Syn良子 出处:http://www.cnblogs.com/cssdongl 转载请注明出处 SparkSQL这块儿从1.4开始支持了很多的窗口分析函数,像row_number这些,平时写程序加载数据后用SQLContext 能够很方便实现很多分析和查询,如下 sqlContext.sql 阅读全文
posted @ 2016-12-20 18:31 Syn良子 阅读(17411) 评论(0) 推荐(0)
摘要:什么是流计算?流是计算的一个连续计算类型 Single:例如HTTP,发送一个Request请求、返回一个Response Batch:将一组作业提交给计算机,返回一组,优势是减少IO等待时间 Stream:Batch异步过程,任务和任务之间没有明显的边界 流计算一般有哪些方式? 如果挂了,数据都被 阅读全文
posted @ 2016-12-19 14:18 Syn良子 阅读(11371) 评论(0) 推荐(1)
摘要:Streams 机架感知 Message中加入Timestamp SASL增强 Kafka Connect Rest API Kafka Consumer Max Record 协议版本改进(Protocol Version Improvements) Kafka brokers现在支持返回所有支持 阅读全文
posted @ 2016-12-16 10:51 Syn良子 阅读(1963) 评论(0) 推荐(0)
摘要:作者:Syn良子 出处:http://www.cnblogs.com/cssdongl 转载请注明出处 用spark来快速计算分组的平均值,写法很便捷,话不多说上代码 用textFile读取数据后,以address进行分组来求age的平均值,这里用combineByKey来计算,这是一个抽象层次很高 阅读全文
posted @ 2016-12-15 18:22 Syn良子 阅读(7217) 评论(0) 推荐(0)
摘要:RDD、DataFrame和DataSet是容易产生混淆的概念,必须对其相互之间对比,才可以知道其中异同。 RDD和DataFrame RDD和DataSet DataSet以Catalyst逻辑执行计划表示,并且数据以编码的二进制形式被存储,不需要反序列化就可以执行sorting、shuffle等 阅读全文
posted @ 2016-12-05 12:57 Syn良子 阅读(3998) 评论(1) 推荐(1)
摘要:例如: PS:下面的代码已经测试通过,木有问题。 http://hugh-wangp.iteye.com/blog/1405804 基于HIVE文件格式的map reduce代码编写http://smallboby.iteye.com/blog/1596776 普通文本压缩成RcFile的通用类ht 阅读全文
posted @ 2016-12-02 11:20 Syn良子 阅读(1510) 评论(0) 推荐(0)
摘要:作者:Syn良子 出处:http://www.cnblogs.com/cssdongl 转载请注明出处 找时间记录一下利用Gobblin采集kafka数据的过程,话不多说,进入正题 一.Gobblin环境变量准备 需要配置好Gobblin0.7.0工作时对应的环境变量,可以去Gobblin的bin目 阅读全文
posted @ 2016-12-01 18:38 Syn良子 阅读(7621) 评论(27) 推荐(0)