随笔档案「2016年12月」 - Syn良子

Spark读写Hbase的二种方式对比

摘要：作者：Syn良子出处：http://www.cnblogs.com/cssdongl 转载请注明出处一.传统方式这种方式就是常用的TableInputFormat和TableOutputFormat来读写hbase，如下代码所示简单解释下，用sc.newAPIHadoopRDD根据conf中阅读全文

posted @ 2016-12-30 18:57 Syn良子阅读(46286) 评论(6) 推荐(5)

Scala集合和Java集合对应转换关系

摘要：作者：Syn良子出处：http://www.cnblogs.com/cssdongl 转载请注明出处用Scala编码的时候，经常会遇到scala集合和Java集合互相转换的case,特意mark一下，加深记忆阅读全文

posted @ 2016-12-30 16:06 Syn良子阅读(3502) 评论(0) 推荐(0)

kafka性能参数和压力测试揭秘

摘要：6台物理机，其中三台部署Broker，三台专门用来launch request。每台物理机：24 Processors，189G Memory，2G 单机带宽。执行本次测试时为了能够覆盖到到一些“非常规”的用法，我把Broker的HeapSize设置到了30G。 6台物理机，其中三台部署Brok 阅读全文

posted @ 2016-12-27 20:50 Syn良子阅读(4408) 评论(0) 推荐(0)

MapReduce和Spark写入Hbase多表总结

摘要：作者：Syn良子出处：http://www.cnblogs.com/cssdongl 转载请注明出处大家都知道用mapreduce或者spark写入已知的hbase中的表时，直接在mapreduce或者spark的driver class中声明如下代码 job.getConfiguration( 阅读全文

posted @ 2016-12-27 18:46 Syn良子阅读(2719) 评论(0) 推荐(0)

SparkStreaming实现Exactly-Once语义

摘要：作者：Syn良子出处：http://www.cnblogs.com/cssdongl 转载请注明出处译自:http://blog.cloudera.com/blog/2015/03/exactly-once-spark-streaming-from-apache-kafka/ 查资料时发现上面这阅读全文

posted @ 2016-12-22 12:57 Syn良子阅读(4265) 评论(0) 推荐(0)

Hive索引功能测试

摘要：作者：Syn良子出处：http://www.cnblogs.com/cssdongl 转载请注明出处从Hive的官方wiki来看，Hive0.7以后增加了一个对表建立index的功能,想试下性能是否有很大提升，参考了一些资料亲手实现了一遍，记录下过程和心得一.测试数据准备 1.新建一个gen- 阅读全文

posted @ 2016-12-21 18:26 Syn良子阅读(2133) 评论(0) 推荐(1)

Spark的DataFrame的窗口函数使用

摘要：作者：Syn良子出处：http://www.cnblogs.com/cssdongl 转载请注明出处 SparkSQL这块儿从1.4开始支持了很多的窗口分析函数，像row_number这些，平时写程序加载数据后用SQLContext 能够很方便实现很多分析和查询,如下 sqlContext.sql 阅读全文

posted @ 2016-12-20 18:31 Syn良子阅读(17411) 评论(0) 推荐(0)

《Kafka Stream》调研：一种轻量级流计算模式

摘要：什么是流计算？流是计算的一个连续计算类型 Single：例如HTTP，发送一个Request请求、返回一个Response Batch：将一组作业提交给计算机，返回一组，优势是减少IO等待时间 Stream：Batch异步过程，任务和任务之间没有明显的边界流计算一般有哪些方式？如果挂了，数据都被阅读全文

posted @ 2016-12-19 14:18 Syn良子阅读(11371) 评论(0) 推荐(1)

Kafka0.10的新特性一览

摘要：Streams 机架感知 Message中加入Timestamp SASL增强 Kafka Connect Rest API Kafka Consumer Max Record 协议版本改进(Protocol Version Improvements) Kafka brokers现在支持返回所有支持阅读全文

posted @ 2016-12-16 10:51 Syn良子阅读(1963) 评论(0) 推荐(0)

Spark计算均值

摘要：作者：Syn良子出处：http://www.cnblogs.com/cssdongl 转载请注明出处用spark来快速计算分组的平均值，写法很便捷，话不多说上代码用textFile读取数据后，以address进行分组来求age的平均值,这里用combineByKey来计算，这是一个抽象层次很高阅读全文

posted @ 2016-12-15 18:22 Syn良子阅读(7217) 评论(0) 推荐(0)

RDD、DataFrame和DataSet的区别

摘要：RDD、DataFrame和DataSet是容易产生混淆的概念，必须对其相互之间对比，才可以知道其中异同。 RDD和DataFrame RDD和DataSet DataSet以Catalyst逻辑执行计划表示，并且数据以编码的二进制形式被存储，不需要反序列化就可以执行sorting、shuffle等阅读全文

posted @ 2016-12-05 12:57 Syn良子阅读(3998) 评论(1) 推荐(1)

基于 Hive 的文件格式：RCFile 简介及其应用

摘要：例如： PS：下面的代码已经测试通过，木有问题。 http://hugh-wangp.iteye.com/blog/1405804 基于HIVE文件格式的map reduce代码编写http://smallboby.iteye.com/blog/1596776 普通文本压缩成RcFile的通用类ht 阅读全文

posted @ 2016-12-02 11:20 Syn良子阅读(1510) 评论(0) 推荐(0)

Gobblin采集kafka数据

摘要：作者：Syn良子出处：http://www.cnblogs.com/cssdongl 转载请注明出处找时间记录一下利用Gobblin采集kafka数据的过程，话不多说，进入正题一.Gobblin环境变量准备需要配置好Gobblin0.7.0工作时对应的环境变量，可以去Gobblin的bin目阅读全文

posted @ 2016-12-01 18:38 Syn良子阅读(7621) 评论(27) 推荐(0)

Syn良子

每天都保持空杯心态

12 2016 档案

公告