2020 年 5月随笔档案 - H辉

摘要：df.select(df.a, F.when(df.a >0, 1).otherwise(2).alias('b')) 当 df.a 值大于0时，则用 1 作为字段b的值；反之，用 2 作为字段b的值。阅读全文

posted @ 2020-05-18 11:59 H辉阅读(340) 评论(0) 推荐(0)

摘要：1 填充NULL值 df.na.fill({"a": 0, "b": 0}) 2 两个表结构相同，做full_outer联合时，要取非NULL值的数据。以下写法，会自动取同名字段中非NULL值的一方。 df.join(df2, ["date_id"], "full_outer").select(" 阅读全文

posted @ 2020-05-15 10:43 H辉阅读(1568) 评论(0) 推荐(0)

$project 选择要显示的字段

摘要：源结果集加入$project 过滤后：注意点： 1 $project是在聚合函数中使用，一般在aggregate中和$group配合使用 2 “_id”:NumberInt(0) 这里的0 表示不显示，非0则是显示 3 "country" : "$_id.country" 这里是从$group 阅读全文

posted @ 2020-05-08 11:38 H辉阅读(1071) 评论(0) 推荐(0)

$unwind 拆分数组字段

摘要：users 源表结构 { "unique_id" : "158816681741313", "active_time" : [ NumberInt(1588291200), NumberInt(1588348800) ]} 执行查询语句 db.users.aggregate([ {$unwind:' 阅读全文

posted @ 2020-05-08 11:20 H辉阅读(338) 评论(0) 推荐(0)

自定义udf函数的使用

摘要：新建df1 和 df2 两个数据源，指定数据源的中的列名和列的类型。用相同列“chanel_id”做关联，进行join outer查询, 在select取值的时候，用自定义的udf函数(get_channel_id)，取两个表中不为空的“channel_id”作为结果集的数据。用fillna 替换结阅读全文

posted @ 2020-05-06 14:54 H辉阅读(1739) 评论(0) 推荐(0)

05 2020 档案

公告