12 2016 档案
摘要:作者:Syn良子 出处:http://www.cnblogs.com/cssdongl 转载请注明出处 一.传统方式 这种方式就是常用的TableInputFormat和TableOutputFormat来读写hbase,如下代码所示 简单解释下,用sc.newAPIHadoopRDD根据conf中
阅读全文
摘要:作者:Syn良子 出处:http://www.cnblogs.com/cssdongl 转载请注明出处 用Scala编码的时候,经常会遇到scala集合和Java集合互相转换的case,特意mark一下,加深记忆
阅读全文
摘要:6台物理机,其中三台部署Broker,三台专门用来launch request。 每台物理机:24 Processors,189G Memory,2G 单机带宽。 执行本次测试时为了能够覆盖到到一些“非常规”的用法,我把Broker的HeapSize设置到了30G。 6台物理机,其中三台部署Brok
阅读全文
摘要:作者:Syn良子 出处:http://www.cnblogs.com/cssdongl 转载请注明出处 大家都知道用mapreduce或者spark写入已知的hbase中的表时,直接在mapreduce或者spark的driver class中声明如下代码 job.getConfiguration(
阅读全文
摘要:作者:Syn良子 出处:http://www.cnblogs.com/cssdongl 转载请注明出处 译自:http://blog.cloudera.com/blog/2015/03/exactly-once-spark-streaming-from-apache-kafka/ 查资料时发现上面这
阅读全文
摘要:作者:Syn良子 出处:http://www.cnblogs.com/cssdongl 转载请注明出处 从Hive的官方wiki来看,Hive0.7以后增加了一个对表建立index的功能,想试下性能是否有很大提升,参考了一些资料亲手实现了一遍,记录下过程和心得 一.测试数据准备 1.新建一个gen-
阅读全文
摘要:作者:Syn良子 出处:http://www.cnblogs.com/cssdongl 转载请注明出处 SparkSQL这块儿从1.4开始支持了很多的窗口分析函数,像row_number这些,平时写程序加载数据后用SQLContext 能够很方便实现很多分析和查询,如下 sqlContext.sql
阅读全文
摘要:什么是流计算?流是计算的一个连续计算类型 Single:例如HTTP,发送一个Request请求、返回一个Response Batch:将一组作业提交给计算机,返回一组,优势是减少IO等待时间 Stream:Batch异步过程,任务和任务之间没有明显的边界 流计算一般有哪些方式? 如果挂了,数据都被
阅读全文
摘要:Streams 机架感知 Message中加入Timestamp SASL增强 Kafka Connect Rest API Kafka Consumer Max Record 协议版本改进(Protocol Version Improvements) Kafka brokers现在支持返回所有支持
阅读全文
摘要:作者:Syn良子 出处:http://www.cnblogs.com/cssdongl 转载请注明出处 用spark来快速计算分组的平均值,写法很便捷,话不多说上代码 用textFile读取数据后,以address进行分组来求age的平均值,这里用combineByKey来计算,这是一个抽象层次很高
阅读全文
摘要:RDD、DataFrame和DataSet是容易产生混淆的概念,必须对其相互之间对比,才可以知道其中异同。 RDD和DataFrame RDD和DataSet DataSet以Catalyst逻辑执行计划表示,并且数据以编码的二进制形式被存储,不需要反序列化就可以执行sorting、shuffle等
阅读全文
摘要:例如: PS:下面的代码已经测试通过,木有问题。 http://hugh-wangp.iteye.com/blog/1405804 基于HIVE文件格式的map reduce代码编写http://smallboby.iteye.com/blog/1596776 普通文本压缩成RcFile的通用类ht
阅读全文
摘要:作者:Syn良子 出处:http://www.cnblogs.com/cssdongl 转载请注明出处 找时间记录一下利用Gobblin采集kafka数据的过程,话不多说,进入正题 一.Gobblin环境变量准备 需要配置好Gobblin0.7.0工作时对应的环境变量,可以去Gobblin的bin目
阅读全文

浙公网安备 33010602011771号