随笔分类 -  ELK

读《深入理解Elasticsearch》点滴-改善查询相关性
摘要:1、标准查询 query match _all query:"搜索字符串" operator:or 2、多匹配查询+区分权重 query multi_match "query":"搜索字符串" fields:["title^100","text^10","-all"] 针对字段进行加权 3、引入短语 阅读全文

posted @ 2018-03-20 21:02 手握太阳 阅读(271) 评论(0) 推荐(0)

读《深入理解Elasticsearch》点滴-改正用户拼写错误
摘要:1、使用“建议”的方法:在query body的json结构体中,增加suggest节点;或者使用特殊的REST端点 2、es自带有多个不同的suggest实现,用来纠正用户的拼写错误及创建自动补全等功能 3、如果索引中文档较少,则可能找不到合适建议的结果 4、有三种那个suggester:term 阅读全文

posted @ 2018-03-20 20:35 手握太阳 阅读(419) 评论(0) 推荐(0)

读《深入理解Elasticsearch》点滴-Elastic HQ监控工具
摘要:1、多节点监控 2、类似war功能部署,tomcat即可使用 3、免费 4、ElasticHQ supports all major version of Elasticsearch from version 2.x, 5.x, 6.x 阅读全文

posted @ 2018-03-19 22:02 手握太阳 阅读(181) 评论(0) 推荐(0)

读《深入理解Elasticsearch》点滴-对象类型、嵌套文档、父子关系
摘要:一、对象类型 1、mapping定义文件 2、索引数据 3、等效于 4、总结一下: object类型只有在很简单的情景中好用,如“一对一“的父子环境当中;或者不存在跨字段找找等情况是,仅需要在单个字段中搜索而不需要关联多个字段时,或者不需要在对象中搜索。 二、嵌套文档 1、mapping定义 2、总 阅读全文

posted @ 2018-03-19 21:33 手握太阳 阅读(357) 评论(0) 推荐(0)

读《深入理解Elasticsearch》点滴-聚合-top_hits
摘要:以下是官网手册(部分)(v5.1) 直接直接看官网手册 https://www.elastic.co/guide/en/elasticsearch/reference/5.1/search-aggregations-metrics-top-hits-aggregation.html Top hits 阅读全文

posted @ 2018-03-18 12:43 手握太阳 阅读(7426) 评论(0) 推荐(0)

读《深入理解Elasticsearch》点滴-multi_match
摘要:区分按字段为中心的查询、词条为中心的查询 注意高频词项被高得分词项(冷僻的词项)取代的问题 1、best_fields :适用于多字段查询且查询相同文本;得分取其中一个字段的最高分。可通过tie_breaker(取值0~1)将低得分字段的分数引入的最终得分中。best_fields可与dis_max 阅读全文

posted @ 2018-03-18 12:00 手握太阳 阅读(416) 评论(0) 推荐(0)

读《深入理解Elasticsearch》点滴-查询二次评分
摘要:理解二次评分 二次评分是指重新计算查询返回文档中指定个数文档的得分,es会截取查询返回的前N个,并使用预定义的二次评分方法来重新计算他们的得分 小结 二次评分参数配置 在resource对象中,必须配置下面的参数: window_size 窗口大小,默认值是from和size参数值之和,它指定了每个 阅读全文

posted @ 2018-03-17 22:48 手握太阳 阅读(3007) 评论(0) 推荐(0)

读《深入理解Elasticsearch》点滴-查询分类
摘要:1、如何分类,略。个人不接受书中的分类方法,建议采用官网上的分类方法 2、term查询,可以模拟No-SQL数据库 阅读全文

posted @ 2018-03-17 22:40 手握太阳 阅读(164) 评论(0) 推荐(0)

读《深入理解Elasticsearch》点滴-过滤器
摘要:1、过滤器不影响文档得分 2、过滤的唯一目的是用特定筛选条件来缩小结果范围;而查询不仅缩小结果范围,还会影响文档的得分 3、过滤器运行更加高效(因为不用计算得分) 4、通常过滤器使用Bits接口,返回DocIdSet数据结构,通过二进制进行位运算 5、不是所有的过滤器都是用Bits结构,如数值区间过 阅读全文

posted @ 2018-03-17 22:00 手握太阳 阅读(127) 评论(0) 推荐(0)

读《深入理解Elasticsearch》点滴-查询模版(结合官网手册,版本5.1)
摘要:1、为什么使用查询模版 让应用程序开发者只需要把查询传递给elasticsearch,而不需要考虑查询语句的构造、查询DSL语法、查询结果过滤等细节知识。 2、使用版本5.1,查询模版在5.6中发生变化。注意。官网地址 https://www.elastic.co/guide/en/elastics 阅读全文

posted @ 2018-03-17 21:20 手握太阳 阅读(210) 评论(0) 推荐(0)

读《深入理解Elasticsearch》点滴-查询评分
摘要:文档权重(document boost):索引期赋予某个文档的权重值 字段权重(field boost):查询期赋予某个文档的权重值 协调因子(coord):基于文档中词项个数的协调因子,一个文档命中率查询中的词项越多,得分越高 逆文档频率(inverse document frequency):一 阅读全文

posted @ 2018-03-17 20:42 手握太阳 阅读(388) 评论(1) 推荐(0)

读《深入理解Elasticsearch》点滴-基础概念
摘要:document:以json的形式体现,搜索和搜索的主要载体 field:document的一个部分 term(词项):代表文本中的一个词 token(词条):term在field中的一次出现,包括词项的文本、开始和结束的偏移、词条类型 norm:norm是一种与“每个被索引文档”相关的因子。它存储 阅读全文

posted @ 2018-03-17 17:58 手握太阳 阅读(210) 评论(0) 推荐(0)

站内搜索(ELK)之数据目录
摘要:在使用elasticsearch建设站内搜索时,随着数据不断丰富,为了数据管理更加精细化,必须建立并实时维护“数据目录”(在程序设计中对应的叫法“数据字典”)。 数据目录需要包含以下几个维度:数据名称、数据分类、数据来源、数据状态、数据量、数据抽取用时、索引时间、操作阶段等。 数据名称:必须要为各类 阅读全文

posted @ 2018-03-01 20:17 手握太阳 阅读(257) 评论(0) 推荐(0)

站内搜索(ELK)之数据表字典类型字段的索引思路
摘要:数据表字典类型的字段,如人员表中的“性别”、流程表中的“处理状态”,此类字段中的值高度重复,不建议放到可检索的索引字段中,原因如下: 若数据表字典类型字段的值索引到单独的索引字段中,因字典数据字符数一般比较少,根据搜索引擎(如elasticsearch)计算得分算法,字符数少的索引字段被检索命中后, 阅读全文

posted @ 2018-02-28 20:09 手握太阳 阅读(309) 评论(0) 推荐(0)

站内搜索(ELK)之开篇
摘要:因工作需要,近期使用ELK搭建单位内部“站内搜索”,目前已将内部OA系统20余个流程的表单、附件的数据索引到elasticsearch中,包括打印复印流程、声像采集流程、远程文件发送、规章制度、内线电话等,还有80余个流程待索引,累计索引附件1.2TB 前期20余个流程数据的收集采用“一个表单,一个 阅读全文

posted @ 2018-02-27 21:08 手握太阳 阅读(218) 评论(0) 推荐(0)

导航