随笔分类 -  Spark

摘要:缘起:TABLESAMPLE 的非随机性 最近需要实现一段 Spark SQL 逻辑,对数据集进行抽样指定的行数,才发现直接使用​​TABLESAMPLE​​函数抽样指定行数的方法其实是非随机的。 由于数据集较大,刚开始的逻辑是,取窗口函数随机排序后 row_number 的前 n 行。但运行速度较 阅读全文
posted @ 2024-04-21 23:30 AKA栗子 阅读(1641) 评论(0) 推荐(0)