10 2008 档案

摘要: LetterTokenizer的分词算法解析阅读全文
posted @ 2008-10-24 17:58 MrDB 阅读(2085) | 评论 (6) 编辑
摘要: Frontier是Heritrix最核心的组成部分之一,也是最复杂的组成部分.它主要功能是为处理链接的线程提供URL,并负责链接处理完成后的一些后续调度操作.并且为了提高效率,它在内部使用了Berkeley DB.本节将对它的内部机理进行详细解剖.阅读全文
posted @ 2008-10-23 19:32 MrDB 阅读(1780) | 评论 (1) 编辑
摘要: 解析处理器(Processor)阅读全文
posted @ 2008-10-23 12:27 MrDB 阅读(1622) | 评论 (0) 编辑
摘要: CrawlController解析阅读全文
posted @ 2008-10-11 23:59 MrDB 阅读(1290) | 评论 (1) 编辑
摘要: Heritrix的整体结构分析阅读全文
posted @ 2008-10-11 11:26 MrDB 阅读(2020) | 评论 (0) 编辑
摘要: 线程池及其实现阅读全文
posted @ 2008-10-10 22:47 MrDB 阅读(851) | 评论 (3) 编辑
摘要: 学工在线新闻搜索引擎0.1 beta版阅读全文
posted @ 2008-10-10 22:10 MrDB 阅读(255) | 评论 (0) 编辑