写一个自己的搜索引擎(1)

本人大三学生一枚,最近突发奇想,想写一个搜索引擎。

git地址:git@github.com:liuxiaohao/cqusearch.git

先从爬虫开始写吧。

初步决定使用java+mysql完成。

初步完成数据库设计

完成hibernate配置。

完成页面的抓取,这里借助了java的htmlparser工具。

完成 宽度优先的抓取网页界面,url表储存在java的hashset里面(便于查找)。

开始网页正文提取,依旧借助htmlparser。

网页正文提取有进展,开始完成爬虫的多线程。

多线程完成,开始尝试线程池。

posted on 2012-11-05 17:38  宝宝乖  阅读(270)  评论(0编辑  收藏  举报

导航