摘要:
比较两个文本的相似度 这里采用 simHash 算法 ; 分词是 基于 http://hanlp.linrunsoft.com/ 的开源 中文分词包 来实现分词 ; 实现效果图: 直接上源码: https://pan.baidu.com/s/1hr4ymKs kbih 阅读全文
posted @ 2017-12-03 15:06
三目鸟
阅读(18949)
评论(7)
推荐(1)
摘要:
最近工作中遇到一个需求 多线程先爬取页面 然后将爬取的结果持久化到数据库中 ,一些大文本的内容需要持久化到 xml文件中; 下面是运行后的结果: xml 文件写入结果: 数据库写入结果: 再来张项目结构图: 直接上源码吧; https://pan.baidu.com/s/1i4ScI1Z z2jc 阅读全文
posted @ 2017-12-03 14:25
三目鸟
阅读(2202)
评论(0)
推荐(0)

浙公网安备 33010602011771号