会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
Syn良子
每天都保持空杯心态
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
下一页
2017年3月21日
Spark性能优化之道——解决Spark数据倾斜(Data Skew)的N种姿势
摘要: 本文转发自Jason’s Blog,原文链接 http://www.jasongj.com/spark/skew/ 摘要 为何要处理数据倾斜(Data Skew) 什么是数据倾斜 数据倾斜是如何造成的 从数据源直接读取。如读取HDFS,Kafka 读取上一个Stage的Shuffle数据 如何缓解/
阅读全文
posted @ 2017-03-21 14:49 Syn良子
阅读(18383)
评论(2)
推荐(5)
2017年3月14日
修改Flume-NG的hdfs sink解析时间戳源码大幅提高写入性能
摘要: 在实际使用中发现Flume内置的基于正则的解析方式非常耗时,有非常大的提升空间。如果你不需要配置按时间戳解析时间,那这篇文章对你用处不大,hdfs sink对应的解析时间戳的代码位于org.apache.flume.sink.hdfs.HDFSEventSink的process()方法中,涉及两句代
阅读全文
posted @ 2017-03-14 18:05 Syn良子
阅读(1738)
评论(0)
推荐(0)
2017年2月14日
Hbase 布隆过滤器BloomFilter介绍
摘要: 在scan初始化时(get会包装为scan)对于每个storefile会做shouldSeek的检查,如果返回false,则表明该storefile里没有要找的内容,直接跳过 shouldSeek方法:如果是scan直接返回true表明不能跳过,然后根据bloomfilter类型检查。 对指明了qu
阅读全文
posted @ 2017-02-14 10:50 Syn良子
阅读(3495)
评论(0)
推荐(0)
2017年1月13日
Hadoop创始人Doug Cutting寄语2017:五种让开源项目成功的方法
摘要: 原文链接:http://www.infoq.com/cn/news/2017/01/Hadoop-2017-5-open-source?utm_source=tuicool&utm_medium=referral InfoQ上看到这篇文章还不错,Mark一下 英文链接:http://techseen
阅读全文
posted @ 2017-01-13 18:29 Syn良子
阅读(349)
评论(0)
推荐(0)
2017年1月12日
HBase在数据统计应用中的使用心得
摘要: 转载自:http://www.cnblogs.com/panfeng412/archive/2011/11/19/2254921.html 1. 数据统计的需求 2. HBase的实现思路 3. 问题的解决思路 b) 查询端:在查询端加入PV/UV的缓存,下一次查询请求来的时候,在已缓存PV/UV值
阅读全文
posted @ 2017-01-12 18:43 Syn良子
阅读(4400)
评论(0)
推荐(0)
2017年1月8日
Kafka connect快速构建数据ETL通道
摘要: 摘要: 作者:Syn良子 出处:http://www.cnblogs.com/cssdongl 转载请注明出处 业余时间调研了一下Kafka connect的配置和使用,记录一些自己的理解和心得,欢迎指正. 一.背景介绍 Kafka connect是Confluent公司(当时开发出Apache K
阅读全文
posted @ 2017-01-08 21:24 Syn良子
阅读(25420)
评论(5)
推荐(0)
2017年1月6日
GitHub更新自己Fork的项目
摘要: 转自:http://www.tuicool.com/articles/MzMJre github的fork可以将别人的工程复制到自己账号下。这个功能很方便,但其有一个缺点是:当源项目更新后,你fork的分支并不会一起更新,需要自己手动去更新。 以gitHub用户:micmiu (账号名),fork 项目 sql-parser(https://github.com/FoundationDB/sql-...
阅读全文
posted @ 2017-01-06 18:33 Syn良子
阅读(2135)
评论(0)
推荐(0)
2017年1月3日
深入浅出数据仓库中SQL性能优化之Hive篇
摘要: Map阶段的优化(Map phase) Mapred.min.split.size指的是数据的最小分割单元大小。 Mapred.max.split.size指的是数据的最大分割单元大小。 dfs.block.size指的是HDFS设置的数据块大小。 Reduce阶段的优化(Reduce phase)
阅读全文
posted @ 2017-01-03 18:25 Syn良子
阅读(837)
评论(0)
推荐(0)
Hive读取外表数据时跳过文件行首和行尾
摘要: 作者:Syn良子 出处:http://www.cnblogs.com/cssdongl 转载请注明出处 有时候用hive读取外表数据时,比如csv这种类型的,需要跳过行首或者行尾一些和数据无关的或者自动生成的多余信息,这里可以用属性设置来实现,快速mark下,建表的时候设置如下 对,就是上面sql中
阅读全文
posted @ 2017-01-03 10:36 Syn良子
阅读(2700)
评论(0)
推荐(1)
2016年12月30日
Spark读写Hbase的二种方式对比
摘要: 作者:Syn良子 出处:http://www.cnblogs.com/cssdongl 转载请注明出处 一.传统方式 这种方式就是常用的TableInputFormat和TableOutputFormat来读写hbase,如下代码所示 简单解释下,用sc.newAPIHadoopRDD根据conf中
阅读全文
posted @ 2016-12-30 18:57 Syn良子
阅读(46270)
评论(6)
推荐(5)
Scala集合和Java集合对应转换关系
摘要: 作者:Syn良子 出处:http://www.cnblogs.com/cssdongl 转载请注明出处 用Scala编码的时候,经常会遇到scala集合和Java集合互相转换的case,特意mark一下,加深记忆
阅读全文
posted @ 2016-12-30 16:06 Syn良子
阅读(3492)
评论(0)
推荐(0)
2016年12月27日
kafka性能参数和压力测试揭秘
摘要: 6台物理机,其中三台部署Broker,三台专门用来launch request。 每台物理机:24 Processors,189G Memory,2G 单机带宽。 执行本次测试时为了能够覆盖到到一些“非常规”的用法,我把Broker的HeapSize设置到了30G。 6台物理机,其中三台部署Brok
阅读全文
posted @ 2016-12-27 20:50 Syn良子
阅读(4386)
评论(0)
推荐(0)
MapReduce和Spark写入Hbase多表总结
摘要: 作者:Syn良子 出处:http://www.cnblogs.com/cssdongl 转载请注明出处 大家都知道用mapreduce或者spark写入已知的hbase中的表时,直接在mapreduce或者spark的driver class中声明如下代码 job.getConfiguration(
阅读全文
posted @ 2016-12-27 18:46 Syn良子
阅读(2705)
评论(0)
推荐(0)
2016年12月22日
SparkStreaming实现Exactly-Once语义
摘要: 作者:Syn良子 出处:http://www.cnblogs.com/cssdongl 转载请注明出处 译自:http://blog.cloudera.com/blog/2015/03/exactly-once-spark-streaming-from-apache-kafka/ 查资料时发现上面这
阅读全文
posted @ 2016-12-22 12:57 Syn良子
阅读(4245)
评论(0)
推荐(0)
2016年12月21日
Hive索引功能测试
摘要: 作者:Syn良子 出处:http://www.cnblogs.com/cssdongl 转载请注明出处 从Hive的官方wiki来看,Hive0.7以后增加了一个对表建立index的功能,想试下性能是否有很大提升,参考了一些资料亲手实现了一遍,记录下过程和心得 一.测试数据准备 1.新建一个gen-
阅读全文
posted @ 2016-12-21 18:26 Syn良子
阅读(2120)
评论(0)
推荐(1)
2016年12月20日
Spark的DataFrame的窗口函数使用
摘要: 作者:Syn良子 出处:http://www.cnblogs.com/cssdongl 转载请注明出处 SparkSQL这块儿从1.4开始支持了很多的窗口分析函数,像row_number这些,平时写程序加载数据后用SQLContext 能够很方便实现很多分析和查询,如下 sqlContext.sql
阅读全文
posted @ 2016-12-20 18:31 Syn良子
阅读(17386)
评论(0)
推荐(0)
2016年12月19日
《Kafka Stream》调研:一种轻量级流计算模式
摘要: 什么是流计算?流是计算的一个连续计算类型 Single:例如HTTP,发送一个Request请求、返回一个Response Batch:将一组作业提交给计算机,返回一组,优势是减少IO等待时间 Stream:Batch异步过程,任务和任务之间没有明显的边界 流计算一般有哪些方式? 如果挂了,数据都被
阅读全文
posted @ 2016-12-19 14:18 Syn良子
阅读(11352)
评论(0)
推荐(1)
2016年12月16日
Kafka0.10的新特性一览
摘要: Streams 机架感知 Message中加入Timestamp SASL增强 Kafka Connect Rest API Kafka Consumer Max Record 协议版本改进(Protocol Version Improvements) Kafka brokers现在支持返回所有支持
阅读全文
posted @ 2016-12-16 10:51 Syn良子
阅读(1952)
评论(0)
推荐(0)
2016年12月15日
Spark计算均值
摘要: 作者:Syn良子 出处:http://www.cnblogs.com/cssdongl 转载请注明出处 用spark来快速计算分组的平均值,写法很便捷,话不多说上代码 用textFile读取数据后,以address进行分组来求age的平均值,这里用combineByKey来计算,这是一个抽象层次很高
阅读全文
posted @ 2016-12-15 18:22 Syn良子
阅读(7209)
评论(0)
推荐(0)
2016年12月5日
RDD、DataFrame和DataSet的区别
摘要: RDD、DataFrame和DataSet是容易产生混淆的概念,必须对其相互之间对比,才可以知道其中异同。 RDD和DataFrame RDD和DataSet DataSet以Catalyst逻辑执行计划表示,并且数据以编码的二进制形式被存储,不需要反序列化就可以执行sorting、shuffle等
阅读全文
posted @ 2016-12-05 12:57 Syn良子
阅读(3969)
评论(1)
推荐(1)
上一页
1
2
3
下一页
公告