2020年5月16日

mapreduce求topN

摘要: (1)利用TreeMap排序,该方式利用小顶堆和集合重复原理的方式 , 每过来一个数据 , 跟堆顶数据进行比较 , 如果比最小的大 , 则将过来的数据替换堆顶元素 , 否则直接跳过数据 . 以此对数据进行排序。 (2)在众多的Mapper的端,首先计算出各端Mapper的TopN,然后在将每一个Ma 阅读全文

posted @ 2020-05-16 15:56 hdc520 阅读(1193) 评论(0) 推荐(0) 编辑

hive常考SQL题

摘要: sql执行顺序:from -> on -> join -> where -> group by -> 聚集函数 -> having -> having -> select ->distinct -> union -> order by -> limit (1)分组求最大值 1、单表分组最大 //在每 阅读全文

posted @ 2020-05-16 14:29 hdc520 阅读(1678) 评论(0) 推荐(0) 编辑

导航