会员
周边
新闻
博问
闪存
赞助商
YouClaw
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
AKA栗子
喜欢就买 不行就分 多喝热水 重启试试
博客园
首页
新随笔
联系
订阅
管理
随笔分类 -
Spark
Spark SQL 实现分层抽样和分层随机抽样
摘要:缘起:TABLESAMPLE 的非随机性 最近需要实现一段 Spark SQL 逻辑,对数据集进行抽样指定的行数,才发现直接使用TABLESAMPLE函数抽样指定行数的方法其实是非随机的。 由于数据集较大,刚开始的逻辑是,取窗口函数随机排序后 row_number 的前 n 行。但运行速度较
阅读全文
posted @
2024-04-21 23:30
AKA栗子
阅读(1641)
评论(0)
推荐(0)
公告