Syn良子

2017年3月21日

Spark性能优化之道——解决Spark数据倾斜（Data Skew）的N种姿势

摘要：本文转发自Jason’s Blog，原文链接 http://www.jasongj.com/spark/skew/ 摘要为何要处理数据倾斜（Data Skew）什么是数据倾斜数据倾斜是如何造成的从数据源直接读取。如读取HDFS，Kafka 读取上一个Stage的Shuffle数据如何缓解/ 阅读全文

posted @ 2017-03-21 14:49 Syn良子阅读(18004) 评论(2) 推荐(5) 编辑

2017年3月14日

修改Flume-NG的hdfs sink解析时间戳源码大幅提高写入性能

摘要：在实际使用中发现Flume内置的基于正则的解析方式非常耗时，有非常大的提升空间。如果你不需要配置按时间戳解析时间，那这篇文章对你用处不大，hdfs sink对应的解析时间戳的代码位于org.apache.flume.sink.hdfs.HDFSEventSink的process()方法中，涉及两句代阅读全文

posted @ 2017-03-14 18:05 Syn良子阅读(1697) 评论(0) 推荐(0) 编辑

2017年2月14日

Hbase 布隆过滤器BloomFilter介绍

摘要：在scan初始化时（get会包装为scan）对于每个storefile会做shouldSeek的检查，如果返回false，则表明该storefile里没有要找的内容，直接跳过 shouldSeek方法：如果是scan直接返回true表明不能跳过，然后根据bloomfilter类型检查。对指明了qu 阅读全文

posted @ 2017-02-14 10:50 Syn良子阅读(3426) 评论(0) 推荐(0) 编辑

2017年1月13日

Hadoop创始人Doug Cutting寄语2017：五种让开源项目成功的方法

摘要：原文链接:http://www.infoq.com/cn/news/2017/01/Hadoop-2017-5-open-source?utm_source=tuicool&utm_medium=referral InfoQ上看到这篇文章还不错，Mark一下英文链接:http://techseen 阅读全文

posted @ 2017-01-13 18:29 Syn良子阅读(326) 评论(0) 推荐(0) 编辑

2017年1月12日

HBase在数据统计应用中的使用心得

摘要：转载自:http://www.cnblogs.com/panfeng412/archive/2011/11/19/2254921.html 1. 数据统计的需求 2. HBase的实现思路 3. 问题的解决思路 b) 查询端：在查询端加入PV/UV的缓存，下一次查询请求来的时候，在已缓存PV/UV值阅读全文

posted @ 2017-01-12 18:43 Syn良子阅读(4331) 评论(0) 推荐(0) 编辑

2017年1月8日

Kafka connect快速构建数据ETL通道

摘要：摘要: 作者：Syn良子出处：http://www.cnblogs.com/cssdongl 转载请注明出处业余时间调研了一下Kafka connect的配置和使用，记录一些自己的理解和心得,欢迎指正. 一.背景介绍 Kafka connect是Confluent公司(当时开发出Apache K 阅读全文

posted @ 2017-01-08 21:24 Syn良子阅读(25293) 评论(5) 推荐(0) 编辑

2017年1月6日

GitHub更新自己Fork的项目

摘要：转自:http://www.tuicool.com/articles/MzMJre github的fork可以将别人的工程复制到自己账号下。这个功能很方便，但其有一个缺点是：当源项目更新后，你fork的分支并不会一起更新，需要自己手动去更新。以gitHub用户:micmiu (账号名)，fork 项目 sql-parser（https://github.com/FoundationDB/sql-... 阅读全文

posted @ 2017-01-06 18:33 Syn良子阅读(2117) 评论(0) 推荐(0) 编辑

2017年1月3日

深入浅出数据仓库中SQL性能优化之Hive篇

摘要： Map阶段的优化(Map phase) Mapred.min.split.size指的是数据的最小分割单元大小。 Mapred.max.split.size指的是数据的最大分割单元大小。 dfs.block.size指的是HDFS设置的数据块大小。 Reduce阶段的优化(Reduce phase) 阅读全文

posted @ 2017-01-03 18:25 Syn良子阅读(806) 评论(0) 推荐(0) 编辑

Hive读取外表数据时跳过文件行首和行尾

摘要：作者：Syn良子出处：http://www.cnblogs.com/cssdongl 转载请注明出处有时候用hive读取外表数据时，比如csv这种类型的，需要跳过行首或者行尾一些和数据无关的或者自动生成的多余信息，这里可以用属性设置来实现，快速mark下，建表的时候设置如下对，就是上面sql中阅读全文

posted @ 2017-01-03 10:36 Syn良子阅读(2601) 评论(0) 推荐(1) 编辑

2016年12月30日

Spark读写Hbase的二种方式对比

摘要：作者：Syn良子出处：http://www.cnblogs.com/cssdongl 转载请注明出处一.传统方式这种方式就是常用的TableInputFormat和TableOutputFormat来读写hbase，如下代码所示简单解释下，用sc.newAPIHadoopRDD根据conf中阅读全文

posted @ 2016-12-30 18:57 Syn良子阅读(46164) 评论(6) 推荐(5) 编辑

Scala集合和Java集合对应转换关系

摘要：作者：Syn良子出处：http://www.cnblogs.com/cssdongl 转载请注明出处用Scala编码的时候，经常会遇到scala集合和Java集合互相转换的case,特意mark一下，加深记忆阅读全文

posted @ 2016-12-30 16:06 Syn良子阅读(3481) 评论(0) 推荐(0) 编辑

2016年12月27日

kafka性能参数和压力测试揭秘

摘要： 6台物理机，其中三台部署Broker，三台专门用来launch request。每台物理机：24 Processors，189G Memory，2G 单机带宽。执行本次测试时为了能够覆盖到到一些“非常规”的用法，我把Broker的HeapSize设置到了30G。 6台物理机，其中三台部署Brok 阅读全文

posted @ 2016-12-27 20:50 Syn良子阅读(4279) 评论(0) 推荐(0) 编辑

MapReduce和Spark写入Hbase多表总结

摘要：作者：Syn良子出处：http://www.cnblogs.com/cssdongl 转载请注明出处大家都知道用mapreduce或者spark写入已知的hbase中的表时，直接在mapreduce或者spark的driver class中声明如下代码 job.getConfiguration( 阅读全文

posted @ 2016-12-27 18:46 Syn良子阅读(2674) 评论(0) 推荐(0) 编辑

2016年12月22日

SparkStreaming实现Exactly-Once语义

摘要：作者：Syn良子出处：http://www.cnblogs.com/cssdongl 转载请注明出处译自:http://blog.cloudera.com/blog/2015/03/exactly-once-spark-streaming-from-apache-kafka/ 查资料时发现上面这阅读全文

posted @ 2016-12-22 12:57 Syn良子阅读(4207) 评论(0) 推荐(0) 编辑

2016年12月21日

Hive索引功能测试

摘要：作者：Syn良子出处：http://www.cnblogs.com/cssdongl 转载请注明出处从Hive的官方wiki来看，Hive0.7以后增加了一个对表建立index的功能,想试下性能是否有很大提升，参考了一些资料亲手实现了一遍，记录下过程和心得一.测试数据准备 1.新建一个gen- 阅读全文

posted @ 2016-12-21 18:26 Syn良子阅读(2078) 评论(0) 推荐(1) 编辑

2016年12月20日

Spark的DataFrame的窗口函数使用

摘要：作者：Syn良子出处：http://www.cnblogs.com/cssdongl 转载请注明出处 SparkSQL这块儿从1.4开始支持了很多的窗口分析函数，像row_number这些，平时写程序加载数据后用SQLContext 能够很方便实现很多分析和查询,如下 sqlContext.sql 阅读全文

posted @ 2016-12-20 18:31 Syn良子阅读(17313) 评论(0) 推荐(0) 编辑

2016年12月19日

《Kafka Stream》调研：一种轻量级流计算模式

摘要：什么是流计算？流是计算的一个连续计算类型 Single：例如HTTP，发送一个Request请求、返回一个Response Batch：将一组作业提交给计算机，返回一组，优势是减少IO等待时间 Stream：Batch异步过程，任务和任务之间没有明显的边界流计算一般有哪些方式？如果挂了，数据都被阅读全文

posted @ 2016-12-19 14:18 Syn良子阅读(11303) 评论(0) 推荐(1) 编辑

2016年12月16日

Kafka0.10的新特性一览

摘要： Streams 机架感知 Message中加入Timestamp SASL增强 Kafka Connect Rest API Kafka Consumer Max Record 协议版本改进(Protocol Version Improvements) Kafka brokers现在支持返回所有支持阅读全文

posted @ 2016-12-16 10:51 Syn良子阅读(1893) 评论(0) 推荐(0) 编辑

2016年12月15日

Spark计算均值

摘要：作者：Syn良子出处：http://www.cnblogs.com/cssdongl 转载请注明出处用spark来快速计算分组的平均值，写法很便捷，话不多说上代码用textFile读取数据后，以address进行分组来求age的平均值,这里用combineByKey来计算，这是一个抽象层次很高阅读全文

posted @ 2016-12-15 18:22 Syn良子阅读(7154) 评论(0) 推荐(0) 编辑

2016年12月5日

RDD、DataFrame和DataSet的区别

摘要： RDD、DataFrame和DataSet是容易产生混淆的概念，必须对其相互之间对比，才可以知道其中异同。 RDD和DataFrame RDD和DataSet DataSet以Catalyst逻辑执行计划表示，并且数据以编码的二进制形式被存储，不需要反序列化就可以执行sorting、shuffle等阅读全文

posted @ 2016-12-05 12:57 Syn良子阅读(3905) 评论(1) 推荐(1) 编辑

每天都保持空杯心态

公告