2016 年 12月随笔档案 - 无尽的缥缈

Parquet与ORC：高性能列式存储格式(收藏)

摘要：背景随着大数据时代的到来，越来越多的数据流向了Hadoop生态圈，同时对于能够快速的从TB甚至PB级别的数据中获取有价值的数据对于一个产品和公司来说更加重要，在Hadoop生态圈的快速发展过程中，涌现了一批开源的数据分析引擎，例如Hive、Spark SQL、Impala、Presto等，同时也产阅读全文

posted @ 2016-12-21 18:47 无尽的缥缈阅读(11005) 评论(1) 推荐(3)

python开发环境搭建

摘要：本来python开发环境简单，挺好的，但是呢，由于好久不搭建开发环境了，想用python开发点东西。刚开始想用pycharm，但是打开后，感觉比较卡，这样整体效率太低了。用sumlime之类的，以前也没怎么用过，干脆用ecliops加pydev 碰到的几个问题简单说一下： 1、首先是版本问题，e 阅读全文

posted @ 2016-12-16 18:44 无尽的缥缈阅读(219) 评论(0) 推荐(0)

hive中rcfile格式(收藏文)

摘要：首先声明，此文是属于纯粹收藏文，感觉讲的很不错。本文介绍了Facebook公司数据分析系统中的RCFile存储结构，该结构集行存储和列存储的优点于一身，在MapReduce环境下的大规模数据分析中扮演重要角色。 Facebook曾在2010 ICDE（IEEE International Conf 阅读全文

posted @ 2016-12-14 17:09 无尽的缥缈阅读(621) 评论(0) 推荐(0)

hive中分析函数window子句

摘要：hive中有些分析函数功能确实很强大，在和sum，max等聚合函数结合起来能实现不少功能。直接上代码演示吧原始数据创建表语句以及结果分析结果，以channel1 列 pv1 结果是取起点到当前行的积累，比如：10号=10号 11号=10号+11号 12号=10号+11号+12号以此类推阅读全文

posted @ 2016-12-02 16:30 无尽的缥缈阅读(1015) 评论(0) 推荐(0)

转：一位阿里人对数据模型建设的几点思考与总结

摘要：走过2010年，回首走过的一年，全部精力投入到了数据平台的建设过程中，在不断的探索、尝试中探索一条适合数据仓库发展之路的数据模型建设方法；作为数据平台建设的主要驱动人，与团队一起完成数据平台基础数据模型（宽表层）的搭建，应用迁移、实现应用项目在新的数据模型上实施。在建设的过程中，有过困惑、走过弯路，阅读全文

posted @ 2016-12-02 10:37 无尽的缥缈阅读(717) 评论(0) 推荐(0)

数据仓库系列4-范式2

摘要：前面讲了下3范式。 http://www.cnblogs.com/wujin/p/6098676.html 在这里简单的介绍下BCNF，四范式，五范式 BCNF 也叫作3.5范式。主要是任何属性都不能依赖于非主属性。第三范式的基础上，第三范式是非主属性只能依赖于主属性，所以也就是主属性不能依赖于阅读全文

posted @ 2016-12-01 19:32 无尽的缥缈阅读(360) 评论(0) 推荐(0)

hive中拉链表

摘要：在有些情况下，为了保持历史的一些状态，需要用拉链表来做，这样做目的在可以保留所有状态的情况下可以节省空间。拉链表适用于以下几种情况吧数据量有点大，表中某些字段有变化，但是呢变化的频率也不是很高，业务需求呢又需要统计这种变化状态，每天全量一份呢，有点不太现实，不仅浪费了存储空间，有时可能业务统计阅读全文

posted @ 2016-12-01 14:24 无尽的缥缈阅读(22886) 评论(2) 推荐(1)