摘要:
######################################## spark性能调优 一.开发调优 1.避免创建重复的RDD 2.尽量复用RDD 3.多次使用的RDD要持久化: 因为RDD执行一个算子操作时,都会重新从源头处计算一遍;持久化的结果会保存到内存或磁盘中; 持久化级别 M 阅读全文
posted @ 2021-02-05 15:21
等木鱼的猫
阅读(151)
评论(0)
推荐(0)
摘要:
simhash simhash 分词→hash→加权→合并→降维 两个simhash对应二进制(01串)取值不同的数量称为这两个simhash的海明距离(异或运算) 分表存储策略: 将一个64位的simhash签名拆分成4个16位的二进制码 编码 import org.apache.spark.sq 阅读全文
posted @ 2021-02-05 14:08
等木鱼的猫
阅读(155)
评论(0)
推荐(0)