摘要:
http://baike.baidu.com/view/1362532.htm 阅读全文
posted @ 2011-08-13 19:08
lexus
阅读(133)
评论(0)
推荐(0)
摘要:
http://baike.baidu.com/view/1362532.htm 阅读全文
posted @ 2011-08-13 19:08
lexus
阅读(133)
评论(0)
推荐(0)
摘要:
http://guan-zhong-dao-ke.blog.163.com/ 阅读全文
posted @ 2011-08-13 14:01
lexus
阅读(112)
评论(0)
推荐(0)
摘要:
The Anatomy of a Large-Scale Hypertextual Web Search Engine http://guan-zhong-dao-ke.blog.163.com/blog/static/46544637200972055130848/ easy code 谈谈网络爬虫设计中的问题 2009-08-20 17:51:30|分类: 技术专题 |字号订阅 网络蜘蛛现在开... 阅读全文
posted @ 2011-08-13 13:58
lexus
阅读(232)
评论(0)
推荐(0)
摘要:
http://www.cnblogs.com/TtTiCk/archive/2007/08/04/842819.html 阅读全文
posted @ 2011-08-13 13:57
lexus
阅读(331)
评论(0)
推荐(0)
摘要:
http://ucdchina.com/snap/5698泛Digg式的热文系统需要有重复内容检测机制。 比如Digg在09年6月30日发表了一篇《Dupe Detection Updates Are Here》,指出几点: 通常的重复内容是同一个站点下的同一个Story,只不过链接不同罢了(这在国内论坛很常见,帖子的链接有好多种变换,实际上指向的都是同一个帖子)。此时用文本相似性计算(docum... 阅读全文
posted @ 2011-08-13 12:50
lexus
阅读(245)
评论(0)
推荐(0)
|