2015年8月28日

simhash-- 一种文档去重的算法

摘要: 最早看数学之美的时候,书中就提到了这个算法,当时没有做过相关地工作,没什么具体的印象。一年前转岗时面试时别人提到了这个算法,知道了simhash可以用来解决网页等海量数据的去重问题,很高效。然后自己大概实现了一下这个算法的python版本,试了一下,感觉还不错,mark下吧# coding=utf-... 阅读全文

posted @ 2015-08-28 12:02 一颗麦粒 阅读(1403) 评论(0) 推荐(0) 编辑

导航