见贤思小齐,知足常乐呵

  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

07 2016 档案

摘要:分区 & 分桶 都是把数据划分成块。分区是粗粒度的划分,桶是细粒度的划分,这样做为了可以让查询发生在小范围的数据上以提高效率。 分区之后,分区列都成了文件目录,从而查询时定位到文件目录,子数据集而提高查询效率。 桶 clustered by (...) into (...) buckets 声明分桶 阅读全文
posted @ 2016-07-28 20:01 Suckseedeva 阅读(4137) 评论(0) 推荐(0)

摘要:梯度下降(GD,Gradient descend)是最小化风险函数、损失函数的一种常用方法 随机梯度下降和批量梯度下降是两种迭代求解思路。 阅读全文
posted @ 2016-07-15 16:41 Suckseedeva 阅读(258) 评论(0) 推荐(0)

摘要:学习自 http://blog.csdn.net/xqy1522/article/details/6699740 1. Map Join 的使用场景: 关联操作中有一张表非常小 不等值的链接操作 2. 语法: 使用 hint 的方式指定join时使用mapjoin。 用时才发现了个细节: /*+ma 阅读全文
posted @ 2016-07-01 11:05 Suckseedeva 阅读(1063) 评论(0) 推荐(0)