12 2016 档案
Parquet与ORC:高性能列式存储格式(收藏)
摘要:背景 随着大数据时代的到来,越来越多的数据流向了Hadoop生态圈,同时对于能够快速的从TB甚至PB级别的数据中获取有价值的数据对于一个产品和公司来说更加重要,在Hadoop生态圈的快速发展过程中,涌现了一批开源的数据分析引擎,例如Hive、Spark SQL、Impala、Presto等,同时也产 阅读全文
posted @ 2016-12-21 18:47 无尽的缥缈 阅读(11005) 评论(1) 推荐(3)
python开发环境搭建
摘要:本来python开发环境简单,挺好的,但是呢,由于好久不搭建开发环境了,想用python开发点东西。 刚开始想用pycharm,但是打开后,感觉比较卡,这样整体效率太低了。 用sumlime之类的,以前也没怎么用过,干脆用ecliops加pydev 碰到的几个问题简单说一下: 1、首先是版本问题,e 阅读全文
posted @ 2016-12-16 18:44 无尽的缥缈 阅读(219) 评论(0) 推荐(0)
hive中rcfile格式(收藏文)
摘要:首先声明,此文是属于纯粹收藏文,感觉讲的很不错。 本文介绍了Facebook公司数据分析系统中的RCFile存储结构,该结构集行存储和列存储的优点于一身,在MapReduce环境下的大规模数据分析中扮演重要角色。 Facebook曾在2010 ICDE(IEEE International Conf 阅读全文
posted @ 2016-12-14 17:09 无尽的缥缈 阅读(621) 评论(0) 推荐(0)
hive中分析函数window子句
摘要:hive中有些分析函数功能确实很强大,在和sum,max等聚合函数结合起来能实现不少功能。 直接上代码演示吧 原始数据 创建表 语句以及结果 分析结果,以channel1 列 pv1 结果是取起点到当前行的积累,比如:10号=10号 11号=10号+11号 12号=10号+11号+12号 以此类推 阅读全文
posted @ 2016-12-02 16:30 无尽的缥缈 阅读(1015) 评论(0) 推荐(0)
转:一位阿里人对数据模型建设的几点思考与总结
摘要:走过2010年,回首走过的一年,全部精力投入到了数据平台的建设过程中,在不断的探索、尝试中探索一条适合数据仓库发展之路的数据模型建设方法;作为数据平台建设的主要驱动人,与团队一起完成数据平台基础数据模型(宽表层)的搭建,应用迁移、实现应用项目在新的数据模型上实施。在建设的过程中,有过困惑、走过弯路, 阅读全文
posted @ 2016-12-02 10:37 无尽的缥缈 阅读(717) 评论(0) 推荐(0)
数据仓库系列4-范式2
摘要:前面讲了下3范式。 http://www.cnblogs.com/wujin/p/6098676.html 在这里简单的介绍下BCNF,四范式,五范式 BCNF 也叫作3.5范式。 主要是任何属性都不能依赖于非主属性。 第三范式的基础上,第三范式是非主属性只能依赖于主属性,所以也就是主属性不能依赖于 阅读全文
posted @ 2016-12-01 19:32 无尽的缥缈 阅读(360) 评论(0) 推荐(0)
hive中拉链表
摘要:在有些情况下,为了保持历史的一些状态,需要用拉链表来做,这样做目的在可以保留所有状态的情况下可以节省空间。 拉链表适用于以下几种情况吧 数据量有点大,表中某些字段有变化,但是呢变化的频率也不是很高,业务需求呢又需要统计这种变化状态,每天全量一份呢,有点不太现实, 不仅浪费了存储空间,有时可能业务统计 阅读全文
posted @ 2016-12-01 14:24 无尽的缥缈 阅读(22886) 评论(2) 推荐(1)