摘要: spark dataframe派生于RDD类,但是提供了非常强大的数据操作功能。当然主要对类SQL的支持。 在实际工作中会遇到这样的情况,主要是会进行两个数据集的筛选、合并,重新入库。 首先加载数据集,然后在提取数据集的前几行过程中,才找到limit的函数。 而合并就用到union函数,重新入库,就 阅读全文
posted @ 2018-09-30 17:57 7岁 阅读(462) 评论(0) 推荐(0) 编辑
摘要: 将一个字段分组,统计每组重复个数,并排序 SELECT Customer, OrderDate, count(*) as Num FROM `all_orders` GROUP BY Customer, OrderDate ORDER BY Num 阅读全文
posted @ 2018-09-30 16:18 7岁 阅读(114) 评论(0) 推荐(0) 编辑