随笔分类 -  搜索引擎手记

搜索引擎手记(三)之网页的去重
摘要:015年4月1日(星期二)晴南风 今天是愚人节,我们给同事过愚人节,爬虫也让我们技术部过了愚人节。通过对抓取数据的分析,发现有20%的数据都是重复数据。开会讨论,原来有两个问题,一个爬虫引擎有重大bug;另外一个问题,竟然对网页没有做去重处理。啊!MyGOD!通过和群里进行技术交流,大概明白了解决... 阅读全文
posted @ 2015-12-02 13:02 成都笨笨 阅读(490) 评论(0) 推荐(0) 编辑
搜索引擎手记(二)之爬虫的开发
摘要:2015年3月23日(星期一)晴、南风 今天数据组开会说爬虫已经开发完毕,在尝试爬网站。由于我们采集的网站,网址都是固定的,并且爬虫网页深度为3。不需要像heritrix这些通用爬虫那么强大的功能。爬虫主要采用了httpclient和htmlparse两个Java库,爬虫的架构思路借鉴了下面的思路... 阅读全文
posted @ 2015-12-01 01:19 成都笨笨 阅读(551) 评论(0) 推荐(0) 编辑
搜索引擎手记(一)之引擎工作的开始
摘要:2015年3月06日(星期五) 阴、南风,天空依旧没有太阳。 项目的进展好比这天气一样,说变就变。搜索引擎的会议开完了。会议开完了的同时,也宣告去年一年的引擎项目的开发以失败而告终。没有思路、没有规划、没有计划,项目的失败也必然的。虽然项目开始时候,大家都预见到了结局,但是当结局来临的那一刻,... 阅读全文
posted @ 2015-12-01 00:09 成都笨笨 阅读(184) 评论(0) 推荐(0) 编辑