随笔分类 -  ElasticSearch

摘要:ElasticSearch 2 (24) 语言处理系列之停用词:性能与精度 摘要 在信息检索早期,磁盘和内存相较我们今天的使用只是很小的一部分。将索引空间保持在一个较小的水平是至关重要的,节省每个字节都意味着巨大的性能提升。词干提取(参见 缩减单词至词根形式(Reducing Words to Th 阅读全文
posted @ 2016-03-16 10:51 Richaaaard 阅读(1373) 评论(0) 推荐(0) 编辑
摘要:ElasticSearch 2 (23) 语言处理系列之词根提取 摘要 世界上大多数语言都是屈折变化的,意思是词语可以通过变形来表达不同的含义: 数(Number): fox, foxes 时态(Tense): pay, paid, paying 性(Gender): waiter, waitres 阅读全文
posted @ 2016-03-16 10:47 Richaaaard 阅读(1703) 评论(0) 推荐(0) 编辑
摘要:ElasticSearch 2 (22) 语言处理系列之标记规范化 摘要 将文本拆解成标记只是工作的一半。为了使这些标记更容易被搜索到,它们需要经过一个规范化的处理过程,以移除相同单词间不重要的差异(比如:大小写)。或许我们还需要移除一些重要的差异,让 、`ésta está déjà vu dej 阅读全文
posted @ 2016-03-16 10:37 Richaaaard 阅读(988) 评论(0) 推荐(0) 编辑
摘要:ElasticSearch 2 (21) 语言处理系列之单词识别 摘要 一个英语单词相对容易识别:因为英语单词是被空格或(某些)标点符号隔开的。但在英语中也有反例: you’re 这个词是一个单词还是两个?那 o’clock 、 cooperate 、 half baked 或 eyewitness 阅读全文
posted @ 2016-03-16 10:26 Richaaaard 阅读(1846) 评论(0) 推荐(1) 编辑
摘要:ElasticSearch 2 (20) 语言处理系列之如何开始 摘要 Elasticsearch 配备了一组语言分析器,为世界上大多数常见的语言提供良好的现成基础支持。 阿拉伯语、亚美尼亚语,巴斯克语,加泰罗尼亚语,巴西语、保加利亚语、汉语、捷克语、丹麦语、荷兰语、英语、芬兰语、法语、德语、希腊语 阅读全文
posted @ 2016-03-16 10:17 Richaaaard 阅读(1042) 评论(0) 推荐(0) 编辑
摘要:ElasticSearch 2 (19) 语言处理系列之故事开始 摘要 全文搜索是精度(尽可能少的返回不相关文档)和召回(尽可能多的返回相关文档)的战场。尽管只精确匹配用户查询的词肯定会是精确的,但这并不够。我们可能会丢失许多被用户认为相关的文档,取而代之的是我们需要扩大撒网范围,去搜索那些与原始查 阅读全文
posted @ 2016-03-16 09:37 Richaaaard 阅读(617) 评论(0) 推荐(0) 编辑
摘要:ElasticSearch 2 (18) 深入搜索系列之控制相关度 摘要 处理结构化数据(比如:时间、数字、字符串、枚举)的数据库只需要检查一个文档(或行,在关系数据库)是否与查询匹配。 布尔是/非匹配是全文搜索的基础部分,但不止这些,我们也同样需要知道每个文档与查询的相关度,在全文搜索引擎中我们不 阅读全文
posted @ 2016-03-08 17:54 Richaaaard 阅读(6278) 评论(1) 推荐(0) 编辑
摘要:ElasticSearch 2 (17) 深入搜索系列之部分匹配 摘要 到目前为止,我们介绍的所有查询都是基于完整术语的,为了匹配,最小的单元为单个术语,我们只能查找反向索引中存在的术语。 但是,如果我们想匹配部分术语而不是全部改怎么办? 部分匹配(Partial matching) 允许用户指定查 阅读全文
posted @ 2016-03-08 15:37 Richaaaard 阅读(6289) 评论(1) 推荐(0) 编辑
摘要:ElasticSearch 2 (16) 深入搜索系列之近似度匹配 摘要 标准的全文搜索使用TF/IDF处理文档、文档里的每个字段或一袋子词。 match 查询可以告诉我们哪个袋子里面包含我们搜索的术语,但这只是故事的一部分。它并不能告诉我们词语之间的关系。 考虑下面句子的区别: Sue ate t 阅读全文
posted @ 2016-03-08 09:20 Richaaaard 阅读(9341) 评论(0) 推荐(1) 编辑
摘要:ElasticSearch 2 (15) 深入搜索系列之多字段搜索 摘要 查询很少是简单的一句话匹配(one clause match )查询。很多时候,我们需要用相同或不同的字符串查询1个或多个字段,也就是说,我们需要对多个查询语句以及他们相关分数(relevance scores)进行有意义的合 阅读全文
posted @ 2016-03-07 15:38 Richaaaard 阅读(4995) 评论(0) 推荐(2) 编辑
摘要:ElasticSearch 2 (14) 深入搜索系列之全文搜索 摘要 在看过结构化搜索之后,我们看看怎样在全文字段中查找相关度最高的文档。 全文搜索两个最重要的方面是: 相关(relevance) 相关是将查询到相关的文档结果进行排名的一种能力,这种相关度可以是根据TF/IDF、地理位置相似性(g 阅读全文
posted @ 2016-03-04 18:34 Richaaaard 阅读(5529) 评论(0) 推荐(0) 编辑
摘要:ElasticSearch 2 (13) 深入搜索系列之结构化搜索 摘要 结构化查询指的是查询那些具有内在结构的数据,比如日期、时间、数字都是结构化的。它们都有精确的格式,我们可以对这些数据进行逻辑操作,比较常见的操作包括比较时间区间,或者获取两个数字间的较大值。 文本也可以是结构化的。比如彩笔可以 阅读全文
posted @ 2016-03-04 11:32 Richaaaard 阅读(3796) 评论(2) 推荐(1) 编辑
摘要:ElasticSearch 2 (12) Shard数调优(ElasticSearch性能) 摘要 当创建一个索引的时候,我们经常会面对一个问题:要为索引分配多少个shard?多少个replica?对于这个问题,仍然没有明确的统一答案,但是本文会给出一些引导,方便在实施ElasticSearch时给 阅读全文
posted @ 2016-03-01 18:28 Richaaaard 阅读(16503) 评论(3) 推荐(1) 编辑
摘要:ElasticSearch 2 (11) 节点调优(ElasticSearch性能) 摘要 一个ElasticSearch集群需要多少个节点很难用一种明确的方式回答,但是,我们可以将问题细化成一下几个,以便帮助我们更好的了解,如何去设计ElasticSearch节点的数目: 1. 打算处理多少数据? 阅读全文
posted @ 2016-03-01 17:09 Richaaaard 阅读(7847) 评论(3) 推荐(0) 编辑
摘要:ElasticSearch 2 (10) 在ElasticSearch之下(深入理解Shard和Lucene Index) 摘要 从底层介绍ElasticSearch Shard的内部原理,以及回答为什么使用ElasticSearch有必要了解Lucene的内部工作方式? 了解ElasticSear 阅读全文
posted @ 2016-03-01 08:25 Richaaaard 阅读(8573) 评论(0) 推荐(4) 编辑
摘要:ElasticSearch 2 (9) 在ElasticSearch之下(图解搜索的故事) 摘要 先自上而下,后自底向上的介绍ElasticSearch的底层工作原理,试图回答以下问题: 为什么我的搜索 \ foo bar\ 无法匹配 foo bar ? 为什么增加更多的文件会压缩索引(Index) 阅读全文
posted @ 2016-02-29 13:53 Richaaaard 阅读(8313) 评论(4) 推荐(3) 编辑
摘要:ElasticSearch 2 (8) 概览与简介 摘要 分布式集群架构,具有高扩充性,可随时增加或移除节点,并保证数据正确。 使用Apache Lucene储存JSON文件,提供全文搜索功能 所有操作均可透过RESTful API完成 跨平台,Java写成 版本 elasticsearch版本: 阅读全文
posted @ 2016-02-25 18:58 Richaaaard 阅读(2727) 评论(0) 推荐(0) 编辑
摘要:ElasticSearch 2 (7) 基本概念 摘要 ElasticSearch的一些基本核心概念,理解这些概念有助于ElasticSearch的学习 准实时NRT(Near Realtime) 集群 节点 索引 类型 文档 分片与副本(Shards & Replicas) 版本 elastics 阅读全文
posted @ 2016-02-24 16:55 Richaaaard 阅读(3061) 评论(0) 推荐(1) 编辑
摘要:ElasticSearch 2 (6) 插件安装Head、Kopf与Bigdesk 摘要 安装Elasticsearch插件Head、Kopf与Bigdesk 版本 elasticsearch版本: elasticsearch 2.2.0 elasticsearch head版本: 2.x(支持el 阅读全文
posted @ 2016-02-24 10:28 Richaaaard 阅读(29500) 评论(1) 推荐(0) 编辑
摘要:ElasticSearch 2.1.1 (5) Document APIs This section describes the following CRUD APIs: Single document APIs Index API Query: $ curl XPUT 'http://local 阅读全文
posted @ 2016-01-29 10:57 Richaaaard 阅读(1590) 评论(0) 推荐(0) 编辑