2018 年 6月 7 日随笔档案 - 冒雨ing

2018年6月7日

摘要：在前一篇文章《海量数据相似度计算之simhash和海明距离》介绍了simhash的原理，大家应该感觉到了算法的魅力。但是随着业务的增长 simhash的数据也会暴增，如果一天100w，10天就1000w了。我们如果插入一条数据就要去比较1000w次的simhash，计算量还是蛮大，普通PC 比较阅读全文

posted @ 2018-06-07 10:51 冒雨ing 阅读(209) 评论(0) 推荐(0)

海量数据相似度计算之simhash和海明距离

摘要：通过采集系统我们采集了大量文本数据，但是文本中有很多重复数据影响我们对于结果的分析。分析前我们需要对这些数据去除重复，如何选择和设计文本的去重算法？常见的有余弦夹角算法、欧式距离、Jaccard相似度、最长公共子串、编辑距离等。这些算法对于待比较的文本数据不多时还比较好用，如果我们的爬虫每天采集阅读全文

posted @ 2018-06-07 10:50 冒雨ing 阅读(490) 评论(0) 推荐(0)

saysmy

字节跳动Tiktok团队北上广深杭急招前后端开发，绿色内推v：saysmy

公告