公告

07 2016 档案

摘要：分区 & 分桶都是把数据划分成块。分区是粗粒度的划分，桶是细粒度的划分，这样做为了可以让查询发生在小范围的数据上以提高效率。分区之后，分区列都成了文件目录，从而查询时定位到文件目录，子数据集而提高查询效率。桶 clustered by (...) into (...) buckets 声明分桶阅读全文

posted @ 2016-07-28 20:01 Suckseedeva 阅读(4137) 评论(0) 推荐(0)

[最优化算法] 梯度下降

摘要：梯度下降（GD,Gradient descend）是最小化风险函数、损失函数的一种常用方法随机梯度下降和批量梯度下降是两种迭代求解思路。阅读全文

posted @ 2016-07-15 16:41 Suckseedeva 阅读(258) 评论(0) 推荐(0)

Hive 的 map join

摘要：学习自 http://blog.csdn.net/xqy1522/article/details/6699740 1. Map Join 的使用场景：关联操作中有一张表非常小不等值的链接操作 2. 语法：使用 hint 的方式指定join时使用mapjoin。用时才发现了个细节： /*+ma 阅读全文

posted @ 2016-07-01 11:05 Suckseedeva 阅读(1063) 评论(0) 推荐(0)

见贤思小齐，知足常乐呵

公告

07 2016 档案