文章分类 -  搜索引擎

搜搜引擎相关的技术
Lucene的查询语法
摘要:英文原版:http://lucene.apache.org/java/2_0_0/queryparsersyntax.html原文来自:http://liyu2000.nease.net/article/Lucene/queryparsersyntax.htm绪论Lucene提供了方便您创建自建查询的API,也通过QueryParser提供了强大的查询语言。本文讲述Lucene的查询语句解析器支持的语法,Lucene的查询语句解析器是使用JavaCC工具生成的词法解析器,它将查询字串解析为Lucene Query对象。项(Term)一条搜索语句被拆分为一些项(term)和操作符(operato 阅读全文
posted @ 2013-08-11 15:13 烤德 阅读(787) 评论(0) 推荐(0)
开放源代码的全文检索引擎 Lucene
摘要:第一节全文检索系统与Lucene简介一、什么是全文检索与全文检索系统? 全文检索是指计算机索引程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置,当用户查询时,检索程序就根据事先建立的索引进行查找,并将查找的结果反馈给用户的检索方式。这个过程类似于通过字典中的检索字表查字的过程。 全文检索的方法主要分为按字检索和按词检索两种。按字检索是指对于文章中的每一个字都建立索引,检索时将词分解为字的组合。对于各种不同的语言而言,字有不同的含义,比如英文中字与词实际上是合一的,而中文中字与词有很大分别。按词检索指对文章中的词,即语义单位建立索引,检索时按词检索,并且可以 阅读全文
posted @ 2013-02-03 16:34 烤德 阅读(4155) 评论(1) 推荐(0)
java网络蜘蛛Web Spider
摘要:网络蜘蛛即WebSpider,是一个很形象的名字。把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站,那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。 对于搜索引擎来说,要抓取互联网上所有的网页几乎是不可能的,从目前公布的数据来看,容量最大的搜索引擎也不过是抓取了整个网页数量的百分之四十左右。这其中的原因一方面是抓取技术的瓶.. 阅读全文
posted @ 2013-02-03 14:52 烤德 阅读(1917) 评论(0) 推荐(0)
如何配置在eclipse下配置Heritrix
摘要:在其他帖子上看到有Eclipse 配置 Heritrix 1.14.4的文章,这里有很多内容是引用自那里。如http://extjs2.javaeye.com/blog/699751不过这里对配置有一些进一步的说明。 Eclipse 配置 Heritrix 1.14.4的配置过程如下: 1. 首先从http://sourceforge.net/projects/archive-crawler/ 中下载 heritrix-1.14.4.zip 和 heritrix-1.14.4-src.zip(Windows) 2. 在Eclipse 中创建一个java project的工程(可以命名为Heri 阅读全文
posted @ 2012-12-22 20:07 烤德 阅读(767) 评论(0) 推荐(1)