Data Science - 随笔分类 - ChrisTimer

hive从查询中获取数据插入到表或动态分区

摘要：（前人写的不错，很实用，负责任转发）转自：http://www.crazyant.net/1197.html Hive的insert语句能够从查询语句中获取数据，并同时将数据Load到目标表中。现在假定有一个已有数据的表staged_employees（雇员信息全量表），所属国家cnty和所属州st 阅读全文

posted @ 2017-07-03 11:46 ChrisTimer 阅读(9468) 评论(0) 推荐(0)

多模式匹配算法，高效解决词典很大的模糊匹配问题

摘要：因为属于公司的数据部门，所以会接到一些产品，或者数据策略组同事的数据需求，其中一个需求如下：为了评估一批词的如果加入黑名单会造成的收入损失，采用模糊匹配参照其过去一段时间的收入来作为考量指标。原始需求：模糊命中附件中XXX多个词的关键词的消费数据，取消费数据中过去一周的数据。最终输出所有阅读全文

posted @ 2016-03-23 15:03 ChrisTimer 阅读(1957) 评论(0) 推荐(0)

hive查询注意及优化tips

摘要：Hive是将符合SQL语法的字符串解析生成可以在Hadoop上执行的MapReduce的工具。使用Hive尽量按照分布式计算的一些特点来设计sql，和传统关系型数据库有区别，所以需要去掉原有关系型数据库下开发的一些固有思维。基本原则：1：尽量尽早地过滤数据，减少每个阶段的数据量,对于分区表要加分区，... 阅读全文

posted @ 2015-08-10 17:05 ChrisTimer 阅读(546) 评论(0) 推荐(0)

join中级篇---------hash join & merge join & nested loop Join

摘要：嵌套循环连接(Nested Loop Join)循环嵌套连接是最基本的连接,正如其名所示那样，需要进行循环嵌套，嵌套循环是三种方式中唯一支持不等式连接的方式，这种连接方式的过程可以简单的用下图展示: 图1.循环嵌套连接的第一步 ... 阅读全文

posted @ 2015-05-19 17:32 ChrisTimer 阅读(422) 评论(0) 推荐(0)

一致性hash算法

摘要：一致性哈希算法在1997年由麻省理工学院提出的一种分布式哈希（DHT）实现算法，设计目标是为了解决因特网中的热点(Hot spot)问题，初衷和CARP十分类似。一致性哈希修正了CARP使用的简单哈希算法带来的问题，使得分布式哈希（DHT）可以在P2P环境中真正得到应用。一致性hash算法... 阅读全文

posted @ 2015-05-19 11:24 ChrisTimer 阅读(191) 评论(0) 推荐(0)

SQL join中级篇--hive中 mapreduce join方法分析

摘要：1. 概述。本文主要介绍了mapreduce框架上如何实现两表JOIN。2. 常见的join方法介绍假设要进行join的数据分别来自File1和File2.2.1 reduce side joinreduce side join是一种最简单的join方式，其主要思想如下：在map阶段，map函数同时... 阅读全文

posted @ 2015-05-18 16:17 ChrisTimer 阅读(1962) 评论(0) 推荐(0)

SQL 中GROUP BY 、ROLLUP、CUBE 关系和区别

摘要：转自：http://www.cnblogs.com/dyufei/archive/2009/11/12/2573974.html不言自明，看SQL就完全理解了，不需要过多解释，不错，分享之：ROLLUP 运算符生成的结果集类似于 CUBE 运算符生成的结果集。下面是 CUBE 和 ROLLUP 之间... 阅读全文

posted @ 2015-05-13 16:51 ChrisTimer 阅读(1619) 评论(0) 推荐(0)

SQL JOIN--初级篇

摘要：写在前面的话：以下是最简单的join原理，为后面的大数据分布式join做概念复习和知识铺垫：有时为了得到完整的结果，我们需要从两个或更多的表中获取结果。我们就需要执行 join。JOIN: 如果表中有至少一个匹配，则返回行LEFT JOIN: 即使右表中没有匹配，也从左表返回所有的行RIGHT JO... 阅读全文

posted @ 2014-08-26 12:08 ChrisTimer 阅读(163) 评论(0) 推荐(0)

Chris Timer

-- The night is Cool

随笔分类 - Data Science

公告