摘要: Spark Java API 计算 Levenshtein 距离 在 "上一篇文章" 中,完成了Spark开发环境的搭建,最终的目标是对用户昵称信息做聚类分析,找出违规的昵称。聚类分析需要一个距离,用来衡量两个昵称之间的相似度。这里采用levenshtein距离。现在就来开始第一个小目标,用Spar 阅读全文
posted @ 2018-11-16 21:45 大熊猫同学 阅读(1565) 评论(0) 推荐(0)