05 2020 档案
摘要:df.select(df.a, F.when(df.a >0, 1).otherwise(2).alias('b')) 当 df.a 值大于0时,则用 1 作为字段b的值;反之,用 2 作为字段b的值。
阅读全文
摘要:1 填充NULL值 df.na.fill({"a": 0, "b": 0}) 2 两个表结构相同,做full_outer联合时,要取非NULL值的数据。 以下写法,会自动取同名字段中非NULL值的一方。 df.join(df2, ["date_id"], "full_outer").select("
阅读全文
摘要:源结果集 加入$project 过滤后: 注意点: 1 $project是在聚合函数中使用,一般在aggregate中 和$group配合使用 2 “_id”:NumberInt(0) 这里的0 表示不显示,非0则是显示 3 "country" : "$_id.country" 这里是从$group
阅读全文
摘要:users 源表结构 { "unique_id" : "158816681741313", "active_time" : [ NumberInt(1588291200), NumberInt(1588348800) ]} 执行查询语句 db.users.aggregate([ {$unwind:'
阅读全文
摘要:新建df1 和 df2 两个数据源,指定数据源的中的列名和列的类型。用相同列“chanel_id”做关联,进行join outer查询, 在select取值的时候,用自定义的udf函数(get_channel_id),取两个表中不为空的“channel_id”作为结果集的数据。用fillna 替换结
阅读全文
浙公网安备 33010602011771号