随笔分类 -  Data Science

big data;impala;hadoop;postges
摘要:(前人写的不错,很实用,负责任转发)转自:http://www.crazyant.net/1197.html Hive的insert语句能够从查询语句中获取数据,并同时将数据Load到目标表中。现在假定有一个已有数据的表staged_employees(雇员信息全量表),所属国家cnty和所属州st 阅读全文
posted @ 2017-07-03 11:46 ChrisTimer 阅读(9468) 评论(0) 推荐(0)
摘要:因为属于公司的数据部门,所以会接到一些产品,或者数据策略组 同事的数据需求, 其中一个需求如下:为了评估一批词的如果加入黑名单会造成的收入损失,采用模糊匹配参照其过去一段时间的收入来作为考量指标。 原始需求:模糊命中 附件中XXX多个词的 关键词的消费数据,取消费数据中过去一周的数据。 最终输出所有 阅读全文
posted @ 2016-03-23 15:03 ChrisTimer 阅读(1957) 评论(0) 推荐(0)
摘要:Hive是将符合SQL语法的字符串解析生成可以在Hadoop上执行的MapReduce的工具。使用Hive尽量按照分布式计算的一些特点来设计sql,和传统关系型数据库有区别,所以需要去掉原有关系型数据库下开发的一些固有思维。基本原则:1:尽量尽早地过滤数据,减少每个阶段的数据量,对于分区表要加分区,... 阅读全文
posted @ 2015-08-10 17:05 ChrisTimer 阅读(546) 评论(0) 推荐(0)
摘要:嵌套循环连接(Nested Loop Join)循环嵌套连接是最基本的连接,正如其名所示那样,需要进行循环嵌套,嵌套循环是三种方式中唯一支持不等式连接的方式,这种连接方式的过程可以简单的用下图展示: 图1.循环嵌套连接的第一步 ... 阅读全文
posted @ 2015-05-19 17:32 ChrisTimer 阅读(422) 评论(0) 推荐(0)
摘要:一致性哈希算法在1997年由麻省理工学院提出的一种分布式哈希(DHT)实现算法,设计目标是为了解决因特网中的热点(Hot spot)问题,初衷和CARP十分类似。一致性哈希修正了CARP使用的简 单哈希算法带来的问题,使得分布式哈希(DHT)可以在P2P环境中真正得到应用。 一致性hash算法... 阅读全文
posted @ 2015-05-19 11:24 ChrisTimer 阅读(191) 评论(0) 推荐(0)
摘要:1. 概述。本文主要介绍了mapreduce框架上如何实现两表JOIN。2. 常见的join方法介绍假设要进行join的数据分别来自File1和File2.2.1 reduce side joinreduce side join是一种最简单的join方式,其主要思想如下:在map阶段,map函数同时... 阅读全文
posted @ 2015-05-18 16:17 ChrisTimer 阅读(1962) 评论(0) 推荐(0)
摘要:转自:http://www.cnblogs.com/dyufei/archive/2009/11/12/2573974.html不言自明,看SQL就完全理解了,不需要过多解释,不错,分享之:ROLLUP 运算符生成的结果集类似于 CUBE 运算符生成的结果集。下面是 CUBE 和 ROLLUP 之间... 阅读全文
posted @ 2015-05-13 16:51 ChrisTimer 阅读(1619) 评论(0) 推荐(0)
摘要:写在前面的话:以下是最简单的join原理,为后面的大数据分布式join做概念复习和知识铺垫:有时为了得到完整的结果,我们需要从两个或更多的表中获取结果。我们就需要执行 join。JOIN: 如果表中有至少一个匹配,则返回行LEFT JOIN: 即使右表中没有匹配,也从左表返回所有的行RIGHT JO... 阅读全文
posted @ 2014-08-26 12:08 ChrisTimer 阅读(163) 评论(0) 推荐(0)