摘要:分区 & 分桶 都是把数据划分成块。分区是粗粒度的划分,桶是细粒度的划分,这样做为了可以让查询发生在小范围的数据上以提高效率。 分区之后,分区列都成了文件目录,从而查询时定位到文件目录,子数据集而提高查询效率。 桶 clustered by (...) into (...) buckets 声明分桶
阅读全文
07 2016 档案
摘要:分区 & 分桶 都是把数据划分成块。分区是粗粒度的划分,桶是细粒度的划分,这样做为了可以让查询发生在小范围的数据上以提高效率。 分区之后,分区列都成了文件目录,从而查询时定位到文件目录,子数据集而提高查询效率。 桶 clustered by (...) into (...) buckets 声明分桶
阅读全文
摘要:梯度下降(GD,Gradient descend)是最小化风险函数、损失函数的一种常用方法 随机梯度下降和批量梯度下降是两种迭代求解思路。
阅读全文
摘要:学习自 http://blog.csdn.net/xqy1522/article/details/6699740 1. Map Join 的使用场景: 关联操作中有一张表非常小 不等值的链接操作 2. 语法: 使用 hint 的方式指定join时使用mapjoin。 用时才发现了个细节: /*+ma
阅读全文
|