摘要: 本文转发自Jason’s Blog,原文链接 http://www.jasongj.com/spark/skew/ 摘要 为何要处理数据倾斜(Data Skew) 什么是数据倾斜 数据倾斜是如何造成的 从数据源直接读取。如读取HDFS,Kafka 读取上一个Stage的Shuffle数据 如何缓解/ 阅读全文
posted @ 2017-03-21 14:49 Syn良子 阅读(18004) 评论(2) 推荐(5) 编辑
摘要: 在实际使用中发现Flume内置的基于正则的解析方式非常耗时,有非常大的提升空间。如果你不需要配置按时间戳解析时间,那这篇文章对你用处不大,hdfs sink对应的解析时间戳的代码位于org.apache.flume.sink.hdfs.HDFSEventSink的process()方法中,涉及两句代 阅读全文
posted @ 2017-03-14 18:05 Syn良子 阅读(1697) 评论(0) 推荐(0) 编辑
摘要: 在scan初始化时(get会包装为scan)对于每个storefile会做shouldSeek的检查,如果返回false,则表明该storefile里没有要找的内容,直接跳过 shouldSeek方法:如果是scan直接返回true表明不能跳过,然后根据bloomfilter类型检查。 对指明了qu 阅读全文
posted @ 2017-02-14 10:50 Syn良子 阅读(3426) 评论(0) 推荐(0) 编辑
摘要: 原文链接:http://www.infoq.com/cn/news/2017/01/Hadoop-2017-5-open-source?utm_source=tuicool&utm_medium=referral InfoQ上看到这篇文章还不错,Mark一下 英文链接:http://techseen 阅读全文
posted @ 2017-01-13 18:29 Syn良子 阅读(326) 评论(0) 推荐(0) 编辑
摘要: 转载自:http://www.cnblogs.com/panfeng412/archive/2011/11/19/2254921.html 1. 数据统计的需求 2. HBase的实现思路 3. 问题的解决思路 b) 查询端:在查询端加入PV/UV的缓存,下一次查询请求来的时候,在已缓存PV/UV值 阅读全文
posted @ 2017-01-12 18:43 Syn良子 阅读(4331) 评论(0) 推荐(0) 编辑
摘要: 摘要: 作者:Syn良子 出处:http://www.cnblogs.com/cssdongl 转载请注明出处 业余时间调研了一下Kafka connect的配置和使用,记录一些自己的理解和心得,欢迎指正. 一.背景介绍 Kafka connect是Confluent公司(当时开发出Apache K 阅读全文
posted @ 2017-01-08 21:24 Syn良子 阅读(25293) 评论(5) 推荐(0) 编辑
摘要: 转自:http://www.tuicool.com/articles/MzMJre github的fork可以将别人的工程复制到自己账号下。这个功能很方便,但其有一个缺点是:当源项目更新后,你fork的分支并不会一起更新,需要自己手动去更新。 以gitHub用户:micmiu (账号名),fork 项目 sql-parser(https://github.com/FoundationDB/sql-... 阅读全文
posted @ 2017-01-06 18:33 Syn良子 阅读(2117) 评论(0) 推荐(0) 编辑
摘要: Map阶段的优化(Map phase) Mapred.min.split.size指的是数据的最小分割单元大小。 Mapred.max.split.size指的是数据的最大分割单元大小。 dfs.block.size指的是HDFS设置的数据块大小。 Reduce阶段的优化(Reduce phase) 阅读全文
posted @ 2017-01-03 18:25 Syn良子 阅读(806) 评论(0) 推荐(0) 编辑
摘要: 作者:Syn良子 出处:http://www.cnblogs.com/cssdongl 转载请注明出处 有时候用hive读取外表数据时,比如csv这种类型的,需要跳过行首或者行尾一些和数据无关的或者自动生成的多余信息,这里可以用属性设置来实现,快速mark下,建表的时候设置如下 对,就是上面sql中 阅读全文
posted @ 2017-01-03 10:36 Syn良子 阅读(2601) 评论(0) 推荐(1) 编辑
摘要: 作者:Syn良子 出处:http://www.cnblogs.com/cssdongl 转载请注明出处 一.传统方式 这种方式就是常用的TableInputFormat和TableOutputFormat来读写hbase,如下代码所示 简单解释下,用sc.newAPIHadoopRDD根据conf中 阅读全文
posted @ 2016-12-30 18:57 Syn良子 阅读(46164) 评论(6) 推荐(5) 编辑
摘要: 作者:Syn良子 出处:http://www.cnblogs.com/cssdongl 转载请注明出处 用Scala编码的时候,经常会遇到scala集合和Java集合互相转换的case,特意mark一下,加深记忆 阅读全文
posted @ 2016-12-30 16:06 Syn良子 阅读(3481) 评论(0) 推荐(0) 编辑
摘要: 6台物理机,其中三台部署Broker,三台专门用来launch request。 每台物理机:24 Processors,189G Memory,2G 单机带宽。 执行本次测试时为了能够覆盖到到一些“非常规”的用法,我把Broker的HeapSize设置到了30G。 6台物理机,其中三台部署Brok 阅读全文
posted @ 2016-12-27 20:50 Syn良子 阅读(4279) 评论(0) 推荐(0) 编辑
摘要: 作者:Syn良子 出处:http://www.cnblogs.com/cssdongl 转载请注明出处 大家都知道用mapreduce或者spark写入已知的hbase中的表时,直接在mapreduce或者spark的driver class中声明如下代码 job.getConfiguration( 阅读全文
posted @ 2016-12-27 18:46 Syn良子 阅读(2674) 评论(0) 推荐(0) 编辑
摘要: 作者:Syn良子 出处:http://www.cnblogs.com/cssdongl 转载请注明出处 译自:http://blog.cloudera.com/blog/2015/03/exactly-once-spark-streaming-from-apache-kafka/ 查资料时发现上面这 阅读全文
posted @ 2016-12-22 12:57 Syn良子 阅读(4207) 评论(0) 推荐(0) 编辑
摘要: 作者:Syn良子 出处:http://www.cnblogs.com/cssdongl 转载请注明出处 从Hive的官方wiki来看,Hive0.7以后增加了一个对表建立index的功能,想试下性能是否有很大提升,参考了一些资料亲手实现了一遍,记录下过程和心得 一.测试数据准备 1.新建一个gen- 阅读全文
posted @ 2016-12-21 18:26 Syn良子 阅读(2078) 评论(0) 推荐(1) 编辑
摘要: 作者:Syn良子 出处:http://www.cnblogs.com/cssdongl 转载请注明出处 SparkSQL这块儿从1.4开始支持了很多的窗口分析函数,像row_number这些,平时写程序加载数据后用SQLContext 能够很方便实现很多分析和查询,如下 sqlContext.sql 阅读全文
posted @ 2016-12-20 18:31 Syn良子 阅读(17313) 评论(0) 推荐(0) 编辑
摘要: 什么是流计算?流是计算的一个连续计算类型 Single:例如HTTP,发送一个Request请求、返回一个Response Batch:将一组作业提交给计算机,返回一组,优势是减少IO等待时间 Stream:Batch异步过程,任务和任务之间没有明显的边界 流计算一般有哪些方式? 如果挂了,数据都被 阅读全文
posted @ 2016-12-19 14:18 Syn良子 阅读(11303) 评论(0) 推荐(1) 编辑
摘要: Streams 机架感知 Message中加入Timestamp SASL增强 Kafka Connect Rest API Kafka Consumer Max Record 协议版本改进(Protocol Version Improvements) Kafka brokers现在支持返回所有支持 阅读全文
posted @ 2016-12-16 10:51 Syn良子 阅读(1893) 评论(0) 推荐(0) 编辑
摘要: 作者:Syn良子 出处:http://www.cnblogs.com/cssdongl 转载请注明出处 用spark来快速计算分组的平均值,写法很便捷,话不多说上代码 用textFile读取数据后,以address进行分组来求age的平均值,这里用combineByKey来计算,这是一个抽象层次很高 阅读全文
posted @ 2016-12-15 18:22 Syn良子 阅读(7154) 评论(0) 推荐(0) 编辑
摘要: RDD、DataFrame和DataSet是容易产生混淆的概念,必须对其相互之间对比,才可以知道其中异同。 RDD和DataFrame RDD和DataSet DataSet以Catalyst逻辑执行计划表示,并且数据以编码的二进制形式被存储,不需要反序列化就可以执行sorting、shuffle等 阅读全文
posted @ 2016-12-05 12:57 Syn良子 阅读(3905) 评论(1) 推荐(1) 编辑