摘要: 转自:https://www.jianshu.com/p/06c6f9e50974 最简单的注册UDF 直接将lambda表达式注册成UDF 下面是一个简单的清洗函数 from pyspark.sql.types import StringType spark.udf.register('sex_d 阅读全文
posted @ 2020-08-12 19:52 Le1B_o 阅读(2110) 评论(0) 推荐(0) 编辑
摘要: 自定义聚合函数 UDAF 目前有点麻烦,PandasUDFType.GROUPED_AGG 在2.3.2的版本中不知怎么回事,不能使用! 这样的话只能曲线救国了! PySpark有一组很好的聚合函数(例如,count,countDistinct,min,max,avg,sum),但这些并不适用于所有 阅读全文
posted @ 2020-08-12 19:49 Le1B_o 阅读(701) 评论(0) 推荐(0) 编辑