摘要:
Heritrix是一个由Java开发的开源Web爬虫系统,用来获取完整的、精确的站点内容的深度复制, 具有强大的可扩展性,运行开发者任意选择或扩展各个组件,实现特定的抓取逻辑。 一、Heritrix介绍 Heritrix采用了模块化的设计,用户可以在运行时选择要用的模块。它由核心类(core cla 阅读全文
posted @ 2018-07-19 18:30
moonsoft
阅读(5632)
评论(0)
推荐(0)
本文从官网下载Lucene开始,一步一步进行Lucene的应用学习研究。 阅读全文