| 执行以下hive ql语句: |
|
| SELECT |
| sid, class_id |
| FROM |
| table2 |
| GROUP BY sid ; |
| 会报错: |
|
| FAILED: Error in semantic analysis: Line 1:18 Expression not in GROUP BY key 'class_id' |
|
| 查了一下,HIVE有这么一个函数collect_set,类似于mysql的group_concat函数,把每个分组的其他字段,按照逗号进行拼接,得到一个最终字符串: |
| 1 |
| 2 |
| 3 |
|
|
|
| collect_set |
| ( |
| col |
| ) |
|
|
|
|
| 返回类型: |
| array |
|
|
|
|
| 解释:返回一个去重后的对象集合 |
|
|
|
| 将上述的QL语句改一下: |
|
| select sid,collect_set(class_id) from table2 group by sid; |
|
|
| 结果是这样的: |
|
| 1 [11,12,13] |
| 2 [11,14] |
| 3 [12,15] |
| 4 [12,13] |
| 5 [16,14] |
| 7 [13,15] |
|
| 这个时候,我们就可以针对第二列做一些计数、求和操作,分别对应到Hive的聚合函数count、sum。 |
|
| 对应到本文的目的,直接从数组获取第一个元素就达到目的了,这样做: |
|
| select sid,collect_set(class_id)[0] from table2 group by sid; |
| 结果如下: |
|
| 1 11 |
| 2 11 |
| 3 12 |
| 4 12 |
| 5 16 |
| 7 13 |
| 总结: |
|
| Hive不允许直接访问非group by字段; |
| 对于非group by字段,可以用Hive的collect_set函数收集这些字段,返回一个数组; |
| 使用数字下标,可以直接访问数组中的元素; |