摘要: ######################################## spark性能调优 一.开发调优 1.避免创建重复的RDD 2.尽量复用RDD 3.多次使用的RDD要持久化: 因为RDD执行一个算子操作时,都会重新从源头处计算一遍;持久化的结果会保存到内存或磁盘中; 持久化级别 M 阅读全文
posted @ 2021-02-05 15:21 等木鱼的猫 阅读(151) 评论(0) 推荐(0)
摘要: simhash simhash 分词→hash→加权→合并→降维 两个simhash对应二进制(01串)取值不同的数量称为这两个simhash的海明距离(异或运算) 分表存储策略: 将一个64位的simhash签名拆分成4个16位的二进制码 编码 import org.apache.spark.sq 阅读全文
posted @ 2021-02-05 14:08 等木鱼的猫 阅读(155) 评论(0) 推荐(0)