会员
周边
新闻
博问
AI培训
云市场
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
独自等待
dedicated to the one that got away from you
博客园
首页
新随笔
联系
管理
订阅
2010年1月3日
Nutch下载后的文件目录说明
摘要: Nutch的文件目录所包含的内容: crawldb目录下面存放下载的URL,以及下载的日期,用来页面更新检查时间。linkdb目录存放URL的关联关系,是下载完成后分析时创建的,通过这个关联关系可以实现类似google的pagerank功能。segments目录存储抓取的页面,下面子目录的个数与获取页面的层数有关系。 内含有6个子目录 content:下载页面的内容 crawl_fetch:...
阅读全文
posted @ 2010-01-03 20:47 Myhsg
阅读(679)
评论(0)
推荐(0)
编辑
公告