1.1 垂直搜索引擎的概念

  垂直搜索引擎是应用于某一个行业、专业的搜索引擎,是搜索引擎的延伸和应用细分化。垂直搜索引擎为用户提供的并不是上百甚至上千万相关网页,而是范围极为缩小、极具针对性的具体信息。因此,特定行业的用户更加青睐垂直搜索引擎。[1]

  比如淘宝就是商品搜索引擎(当然也是交易平台),网盘搜索专门搜索网盘资源,在这里推荐一个好的搜索引擎——快搜,它就是集中了很多垂直搜索引擎(没有给我广告费啊……)。

  对于我们的项目来说,做的是儿童搜索引擎,十分惭愧的是,我们没有找到获取儿童相关信息的通用方法,所以我们采取的策略不是全网抓取,而是站内抓取。通过手动选取50个儿童相关的网站进行全站抓取,提取出网页的信息进行索引。事实上,这种方式也是我们能想到的最容易的一种垂直搜索引擎的实现方法。

  但是庆幸的是,对于本文来说,想要做一个文章搜索引擎demo,是有一种判别文章类网页的通用方法的,这个方法我发表在了一篇国际会议的论文里,原理其实很简单,用的全概率公式和文本密度,后面章节里会介绍。但是如果想要做的更垂直一些,比如只找新闻类文章,或者体育类文章等等,还是要自己手动去选网址进行站内爬取的。

  如果未来有机会,我们也会在通用的基于机器学习的垂直资源寻找方面进行研究。到时再与大家分享。

 

 

参考链接:

[1] http://baike.baidu.com/item/垂直搜索引擎

posted @ 2017-05-02 21:29  lvmememe  阅读(1764)  评论(0编辑  收藏  举报