众里寻他千百度,蓦然回首,那人却在灯火阑珊处

有时候 ,经常搜索一些关于搜索引擎的技术文章,时有文章提到,基于网页库,基于模板的spider的说法,这些概念对于没有在专业搜索引擎公司工作经历的我来说,实在不好理解,联系到好久以前看到腾讯招聘“搜索引擎编辑”的要求,有两条比较有趣:

工作职责:
    1,制作定向采集模版
    2 ......... n
工作要求:
    1,熟悉计算机操作,熟练掌握OFFICE软件,能够很快学会xml,html基本语法
    2,其他均和计算机/编程不相关

从这个招聘上看,腾讯的定向采集模版应该是很容易制作的。所以一直很想知道这个模版是如何制作的,后台如何和模板结合完成数据采集任务的。可惜,到目前也不得而知,看来自己摸索吧。
 
前端时间,为了做一个网站,需要开发一个CMS,而CMS最常见,最简单的应该就是“网页模板”了,CMS的模板处理原理本质是“数据替换”。反过来想,定向信息采集的“采集模板”的处理本质是“数据抽取”,以此思路展开,我自己设计了第一个“采集模板”:
<html>
   <title>{spider:文章标题}</title>
   <body>
      <div>发布日期:{spider:发布日期} 作者:{spider:文章作者}</div>
     <div>
        {spider:文章内容}
     </div>
   </body>
</html>
感觉上就像CMS的模板,里面由{}包含的项就是标签,对于CMS而言,是替换标签,而对于数据采集来说,则是抽取标签。
当然了,对于复杂的采集任务,简单的抽取标签是不够的,还需要一套“数据抽取模板语言”,就好比如CMS的模板语言一样。

经过初步的实验,通过html parser和正则表达式可以实现简单网页的定向信息抽取的任务。

在摸索的过程中,对于老早就想实现的“网页局部切割监视”技术,竟然也有了豁然开朗的感觉。

所以就有了“众里寻他千百度,蓦然回首,那人却在灯火阑珊处”的感觉。
虽然不是什么了不起的东西,甚至对于大家来说,是小儿科了。不过在技术探索的过程,发现新东西,总是令人兴奋的!

 
快过年了 ,  祝贺所有的兄弟姐妹 ,也祝贺自己,新年快乐!

posted @ 2008-02-04 23:31 kwklover 阅读(...) 评论(...) 编辑 收藏