Web风行者的设计方案与计划

去年(2005年)花了数月的时间写了一个Web Spider。主要集中于功能实现，线程模型，任务自动化，数据攫取方面。在两个月的运行测试中，改正了不少的bug。当时给这个程序起的名字叫"龙龙"（俺是兽族的嘛）.龙龙的缺点是完全定制性的控制台程序，对不同的网页必须进行硬编码解析。于是想开发"龙龙2.0"，加入规则系统和UI界面。前一阵比较忙，就停下了"龙龙"的开发。现在开始接续龙龙2.0，并为龙龙2.0起一个正式的名字：“Web风行者”。

“Web风行者”目标是开发一个易用的，可配置规则，可调试规则的html Web数据挖掘系统。规则部分原则上采用XQuery/XPath/XSLT近似的语法，但可能扩展这些语法，使其能够在更细粒度，能够集成文本挖掘，甚至在语义层面进行挖掘。

“Web风行者”主要考虑易用性和实用性。先将网页解析成XHtml格式，在根据规则从XHtml文件中解析出数据，进行持久化。其结构图初步设想如下：

Web风行者不开源，计划开发免费版，商用版和Web服务版三种版本。推出时间不定。反正本兽一直不闲着，一有时间就开发。

注：本来想用C#写的，但是.net这边没找到可用的开源XQuery实现。

posted @ 2006-02-12 15:36 xiaotie 阅读(711) 评论(1) 收藏举报

刷新页面返回顶部

卖银鳞胸甲的D61

物美价廉，5G1件

Web风行者的设计方案与计划

公告