摘要:
需求解决问题 当每次读取hive表或者其他数据源,获取数据,相对其进行rdd操作,遇到任何类都需要df.rdd(row>row.getstring(0))去获取,就很麻烦,所以可以实现个通用的转换方式 1.dataframe转为rdd通用方法 /** * df转为rdd 通用方法 * * @para 阅读全文
posted @ 2020-11-04 23:46
夜半钟声到客船
阅读(741)
评论(1)
推荐(0)
摘要:
一、问题需求: 近期需要做一个商品集合的相关性计算,需要将所有商品进行两两组合笛卡尔积,但spark自带的笛卡尔积会造成过多重复,而且增加join量 假如商品集合里面有: aa aa bb bb cc cc 两两进行组合会出现九种情况 aa,aa aa,bb aa,cc cc,aa bb,aa bb 阅读全文
posted @ 2020-11-04 23:23
夜半钟声到客船
阅读(379)
评论(0)
推荐(0)

浙公网安备 33010602011771号