01 2017 档案

摘要:原文链接:http://www.infoq.com/cn/news/2017/01/Hadoop-2017-5-open-source?utm_source=tuicool&utm_medium=referral InfoQ上看到这篇文章还不错,Mark一下 英文链接:http://techseen 阅读全文
posted @ 2017-01-13 18:29 Syn良子 阅读(355) 评论(0) 推荐(0)
摘要:转载自:http://www.cnblogs.com/panfeng412/archive/2011/11/19/2254921.html 1. 数据统计的需求 2. HBase的实现思路 3. 问题的解决思路 b) 查询端:在查询端加入PV/UV的缓存,下一次查询请求来的时候,在已缓存PV/UV值 阅读全文
posted @ 2017-01-12 18:43 Syn良子 阅读(4403) 评论(0) 推荐(0)
摘要:摘要: 作者:Syn良子 出处:http://www.cnblogs.com/cssdongl 转载请注明出处 业余时间调研了一下Kafka connect的配置和使用,记录一些自己的理解和心得,欢迎指正. 一.背景介绍 Kafka connect是Confluent公司(当时开发出Apache K 阅读全文
posted @ 2017-01-08 21:24 Syn良子 阅读(25431) 评论(5) 推荐(0)
摘要:转自:http://www.tuicool.com/articles/MzMJre github的fork可以将别人的工程复制到自己账号下。这个功能很方便,但其有一个缺点是:当源项目更新后,你fork的分支并不会一起更新,需要自己手动去更新。 以gitHub用户:micmiu (账号名),fork 项目 sql-parser(https://github.com/FoundationDB/sql-... 阅读全文
posted @ 2017-01-06 18:33 Syn良子 阅读(2142) 评论(0) 推荐(0)
摘要:Map阶段的优化(Map phase) Mapred.min.split.size指的是数据的最小分割单元大小。 Mapred.max.split.size指的是数据的最大分割单元大小。 dfs.block.size指的是HDFS设置的数据块大小。 Reduce阶段的优化(Reduce phase) 阅读全文
posted @ 2017-01-03 18:25 Syn良子 阅读(853) 评论(0) 推荐(0)
摘要:作者:Syn良子 出处:http://www.cnblogs.com/cssdongl 转载请注明出处 有时候用hive读取外表数据时,比如csv这种类型的,需要跳过行首或者行尾一些和数据无关的或者自动生成的多余信息,这里可以用属性设置来实现,快速mark下,建表的时候设置如下 对,就是上面sql中 阅读全文
posted @ 2017-01-03 10:36 Syn良子 阅读(2714) 评论(0) 推荐(1)