随笔档案「2017年1月」 - Syn良子

Hadoop创始人Doug Cutting寄语2017：五种让开源项目成功的方法

摘要：原文链接:http://www.infoq.com/cn/news/2017/01/Hadoop-2017-5-open-source?utm_source=tuicool&utm_medium=referral InfoQ上看到这篇文章还不错，Mark一下英文链接:http://techseen 阅读全文

posted @ 2017-01-13 18:29 Syn良子阅读(359) 评论(0) 推荐(0)

HBase在数据统计应用中的使用心得

摘要：转载自:http://www.cnblogs.com/panfeng412/archive/2011/11/19/2254921.html 1. 数据统计的需求 2. HBase的实现思路 3. 问题的解决思路 b) 查询端：在查询端加入PV/UV的缓存，下一次查询请求来的时候，在已缓存PV/UV值阅读全文

posted @ 2017-01-12 18:43 Syn良子阅读(4404) 评论(0) 推荐(0)

Kafka connect快速构建数据ETL通道

摘要：摘要: 作者：Syn良子出处：http://www.cnblogs.com/cssdongl 转载请注明出处业余时间调研了一下Kafka connect的配置和使用，记录一些自己的理解和心得,欢迎指正. 一.背景介绍 Kafka connect是Confluent公司(当时开发出Apache K 阅读全文

posted @ 2017-01-08 21:24 Syn良子阅读(25450) 评论(5) 推荐(0)

GitHub更新自己Fork的项目

摘要：转自:http://www.tuicool.com/articles/MzMJre github的fork可以将别人的工程复制到自己账号下。这个功能很方便，但其有一个缺点是：当源项目更新后，你fork的分支并不会一起更新，需要自己手动去更新。以gitHub用户:micmiu (账号名)，fork 项目 sql-parser（https://github.com/FoundationDB/sql-... 阅读全文

posted @ 2017-01-06 18:33 Syn良子阅读(2145) 评论(0) 推荐(0)

深入浅出数据仓库中SQL性能优化之Hive篇

摘要：Map阶段的优化(Map phase) Mapred.min.split.size指的是数据的最小分割单元大小。 Mapred.max.split.size指的是数据的最大分割单元大小。 dfs.block.size指的是HDFS设置的数据块大小。 Reduce阶段的优化(Reduce phase) 阅读全文

posted @ 2017-01-03 18:25 Syn良子阅读(865) 评论(0) 推荐(0)

Hive读取外表数据时跳过文件行首和行尾

摘要：作者：Syn良子出处：http://www.cnblogs.com/cssdongl 转载请注明出处有时候用hive读取外表数据时，比如csv这种类型的，需要跳过行首或者行尾一些和数据无关的或者自动生成的多余信息，这里可以用属性设置来实现，快速mark下，建表的时候设置如下对，就是上面sql中阅读全文

posted @ 2017-01-03 10:36 Syn良子阅读(2720) 评论(0) 推荐(1)

Syn良子

每天都保持空杯心态

01 2017 档案

公告