摘要: 背景 提升产品体验,节省用户感知度。——想想,如果看到一堆相似性很高的新闻,对于用户的留存会有很大的影响。 技术方案1、信息指纹算法 思路:为每个网页计算出一组信息指纹(Fingerprint)。比较两个网页相同信息指纹数量,从而判断内容的重叠性。 步骤: 1)提取网页正文信息特征(通常是一组词), 阅读全文
posted @ 2018-05-25 17:12 jstarseven 阅读(1866) 评论(0) 推荐(0) 编辑