随笔分类 - 搜索引擎
摘要:最近遇到一个问题:大批量的文件,每个文件除了拥有类似于linux中struct stat中的一些基本的元数据外,还存在一系列的key/value对的扩展属性,现在的需求是,根据用户提供的key/value对,快速检索出匹配的文件集。 对于搜索来说,暴力搜索无疑是万能的,遍历所有的目标并逐个进行匹配,肯定能得出结果,比如linux下的find工具就是采用这种方式找出特定文件的。在匹配的过程中,查...
阅读全文
摘要:什么是 XML?
1. XML是一种可扩展的标记语言 (Extensible Markup Language)。 2. XML的标记 (tag) 没有被预定义,用户可以自行定义标记来描述数据。 3. XML主要用来描述和存储数据。 4. XML具有自我描述性。 5. XML是树状结构的文档,是个结构化的文档。 6. XML文档是个文本文件。 XML 的优点
1. 易携带和传输: XML...
阅读全文
摘要:Lucene支持基于词条的TermQuery、RangeQuery、PrefixQuery、BolleanQuery、PhraseQuery、WildcardQuery、FuzzyQuery,另外lucene提供了功能强大的QueryParse用于从查询表达式中分析出查询请求。 1. TermQuery与QueryParser
单个单词作为查询表达式时,它相当于一个单独的项。如果表达式是由单个...
阅读全文
摘要:花了点时间研究lucene的索引格式,测试的时候我使用的是2.9.3版本的,但由于后来版本的索引相对较复杂,我就学习了下1.4版本的索引格式,主要是参见lucene官方网站上的文档(http://lucene.apache.org/java/1_4_3/fileformats.html)。 1. Lucene中的基本概念 Lucene中基本的概念包括索引,文档,域,和词条。
l 索引(inde...
阅读全文
摘要:最近两个月都在研究元数据组织与检索的问题,没有方向、没有借鉴,没有取得任何进展。在调研的过程中,发现自己很out,win7的强大是我之前没有想到的,以为Win7只是界面绚丽了一些,用户体验好了一点点,但没有发现Win7的库那么强大,据我所知,很多Win7的用户并不使用库。 Win7的库是建立在文件系统之上,按照文件的属性/标签(可设置)建立索引(以文件的形式),通过库能很方便的管理系统的文档、...
阅读全文
摘要:最近几天看了些搜索引擎方面的书,主要阅读了《自己动手写搜索引擎》、《自己动手写网络爬虫》、《搜索引擎技术实践》、《搜索模式》、《瞬间之美》等书,都很不错,也学到了不少知识,本文谈一下我对构建搜索引擎的认识。 要构建一个搜索引擎,首先要确定搜索源,也即被搜索的对象。被搜索的对象可以是一堆文档,用户需要确定包含某关键字的文档集合;可以是一系列网页,用户需要确定跟关键字内容相关的网页;或是一系列的图片...
阅读全文
摘要:1. TaggedFrog特性分析(http://lunarfrog.com/) TaggedFrog特点:
1. 导入文件时添加标签(不支持动态标签设置)。
2. 标签以标签云的方式呈现,支持标签搜索。
3. 支持扩展的元数据分析,音视频分析等(需要下扩展包)。
4. 支持对标签进行分组管理。
5. 支持导入/导出标签元数据。 2. TaggTool特性分析 (http://www.tagg...
阅读全文
摘要:腾讯的纯真IP数据库收集了包括中国电信、中国移动、中国联通、长城宽带、聚友宽带等 ISP 的最新准确 IP 地址数据,包含了IP地址与国家/地区的对应关系,其信息保存在QQWry.dat文件中。 IP数据库应用的场合较为广泛,下面举几个常见的例子:
1.根据客户的IP地址确定客户来源,为后期的客户行为分析提供基础,例如需要统计学生群体的访问特点,这时我们就是通过分析来自教育网的IP地址的那些请...
阅读全文
摘要:Lucene不是一个完整的全文索引应用,而是是一个用Java写的全文索引引擎工具包,它可以方便的嵌入到各种应用中实现针对应用的全文索引/检索功能,Lucene的目标是为各种中小型应用程序加入全文检索功能。(参考http://www.chedong.com/tech/lucene.html)
Lucene包含分词,索引,搜索等几个模块,支持单个关键字查询、范围查询、短语查询等,为构建全文搜索引擎提...
阅读全文
浙公网安备 33010602011771号