浙江省高等学校教师教育理论培训

微信搜索“毛凌志岗前心得”小程序

  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

讯速分布式定向采集系统(hitask)

讯速开源分布式定向采集系统(hitask)

欢迎加入开源搜索引擎QQ讨论群:1831546 合作洽谈QQ:4451310 检索系统介绍
源码下载
学习资料

目录

    系统简介
    采集流程
    配置运行
    测试实例
展开


任何疑问请提交官方微博http://weibo.com/sounos或者邮箱sounos@gmail.com

系统简介

讯速分布式定向采集系统(hitask)是一个开源的数据采集系统, 开发始于2008年,早期版本属于实验版本仅仅支持数据采集功能, 不能精准的抽取网页内容,在此基础上发展的分布式采集系统具备多节点同时采集功能, 同时支持模版的方式抽取内容, 大大提高系统的可用性和网络带宽利用率. 基础通信库使用libsbase, 字符集识别使用libcharset(C++), 核心代码全部由纯C语言实现, 采用面向对象设计思想. 运行于类unix系统linux/BSD,主要功能点如下:

异步DNS解析

URL排重

支持HTTP 压缩编码传输 gzip/deflate

字符集判断自动转换成UTF-8编码

文档压缩存储

支持多下载节点分布式下载

下载任务控制(可停止和恢复任务),指定url优先下载,指定host优先下载
采集流程

从中心节点取URL(包括URL对应的任务号, IP和port,也可能host需要任务节点自己解析)

连接服务器发送请求

等待数据头判断是否需要的数据(目前主要取text类型的数据)

等待完成数据(有length头的直接等待说明长度的数据否则等待比较大的数字然后设置超时)

数据完成或者超时, zlib压缩数据返回给中心服务器,数据可能包括自己解析DNS信息, 压缩后数据长度+压缩后数据, 如果出错就直接返回任务号以及相关信息

中心服务器收到带有任务号的数据, 查看是否包括数据, 如果没有数据直接置任务号对应的状态为错误, 如果有数据提取数据种link 然后存储数据到文档文件.

完成后返回一个新的任务.
配置运行

下载最新版hitask: http://code.google.com/p/hispider/downlgads/list

程序依赖包 zlib pcre libcharset libevbase libsbase

测试实例数据包 http://hispider.googlecode.com/files/hitask.tar.gz

下载解压到指定目录下一个后更改 /etc/hitaskd.ini 里的配置路径 "hibasedir" 为解压后的路径.

服务启动:

/usr/local/bin/hitaskd -d -c /usr/local/etc/hitaskd.ini

/usr/local/bin/hitask -d -c /usr/local/etc/hitask.ini
测试实例

服10.管理URL-添加种子

 

posted on 2012-03-21 16:33  lexus  阅读(475)  评论(0编辑  收藏  举报