Clucene系列3--Clucene的代码组织结构
摘要:Clucene系列(3)——Clucene的代码组织结构 analysis 模块主要负责词法分析及语言处理,从而生成Term。也包括各种分析器 config 各种编译配置选项,以及一些与OS平台相关的内容。 debug 各种断言异常处理宏定义,错误常量。还自带一个内存泄漏跟踪工具和内存池 docum
阅读全文
posted @
2020-07-08 06:40
yeahle
阅读(230)
推荐(0)
Clucene系列2--Clucene专业术语
摘要:Clucene系列2 analyzer Analyzer是分析器,它的作用是把一个字符串按某种规则划分成一个个词语,并去除其中的无效词语,这里说的无效词语是指英文中的“of”、 “the”,中文中的“的”、“地”等词语,这些词语在文章中大量出现,但是本身不包含什么关键信息,去掉有利于缩小索引文件、提
阅读全文
posted @
2020-07-08 06:36
yeahle
阅读(204)
推荐(0)
搜索引擎—网络爬虫抓取策略
摘要:爬虫的不同抓取策略,就是利用不同的方法确定待抓取URL队列中URL优先顺序的。 爬虫的抓取策略有很多种,但不论方法如何,基本目标一致:优先选择重要网页进行抓取。 网页的重要性,评判标准不同,大部分采用网页的流行性进行定义。 效果较好或有代表性的抓取策略: 1、宽度优先遍历策略 2、非完全PageRa
阅读全文
posted @
2020-02-16 17:27
yeahle
阅读(1304)
推荐(0)
这就是搜索引擎(一)—引擎架构、网络爬虫、索引建立
摘要:这个系列的文章是一只试图通过产品角度出发去理解复杂庞大搜索引擎的汪写出来的,不足之处很多,欢迎广大技术、非技术同学阅读后指正错误,我们一起探讨共同进步。 本篇主要介绍搜索引擎的架构、网络爬虫、及索引建立。 一、搜索引擎基本信息 1.1 什么是搜索引擎 通俗来讲就是从互联网海量信息中捞出用户感兴趣的内
阅读全文
posted @
2020-02-16 09:13
yeahle
阅读(808)
推荐(0)
BloomFilter布隆过滤器
摘要:布隆过滤器简介 布隆过滤器(BloomFilter)是1970年由布隆提出的一种空间空间效率很高的随机数据结构,它利用位数组很简洁地表示一个集合,并判断一个元素是否属于这个集合。使用布隆过滤器,存在第一类出错(Falsepositive),但是不会存在第二类错误(Falsenegative),因此,
阅读全文
posted @
2020-02-11 22:28
yeahle
阅读(133)
推荐(0)
搜索引擎分类和基础架构概述
摘要:搜索引擎的标准定义:搜索引擎(Search Engine)是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。从上述定义中我们可以获得几个有关搜索引擎的关键步骤,分别为:搜集信息;组织和处理信息;展示信息。
阅读全文
posted @
2019-10-28 23:29
yeahle
阅读(1418)
推荐(0)
Clucene系列1--特点和难点
摘要:y 搜索是本身是一个偏重于算法和流程的东西。我感觉使用面向过程的编程模式反而更好理解一些,但Clucence使用C++的特性,高度面向对象化,到处是接口。反而加大了理解难度。 clucene的特点: 支持Ascii和unicode两种字符集。支持多线程并行查询。支持多种查询方式。代码组织结构清晰简洁
阅读全文
posted @
2019-10-23 23:08
yeahle
阅读(202)
推荐(0)