摘要: Elasticsearch 写原理: 写数据原理: 和其它分布式一样, 先 hash 取余, 先定位数据分片, 请求再写入 trandslog (5s fsync translog) 和内存缓冲区, 内存缓冲区每秒同步到文件缓存, 当文件缓冲区 30 分钟或者 translog 比较大时 (500M 阅读全文
posted @ 2022-11-01 18:30 茄子777 阅读(294) 评论(0) 推荐(0)
摘要: 存储优化 查询优化 索引性能优化 其他优化 1. 调大系统的 "最大打开文件数", 例如 65535 2. 修改 bin/elasticsearch.in.sh 中的 ES_MIN_MEN 和 ES_MAX_MEN 的大小, 建议设置一样大, 避免频繁的分配内存, 根据服务器内存大小, 一般分配 6 阅读全文
posted @ 2022-11-01 18:24 茄子777 阅读(425) 评论(0) 推荐(0)
摘要: 1. 分词算法概述 词是表达语义的最小单位. 分词对搜索引擎的帮助很大, 可以帮助搜索引擎程序自动识别语句的含义, 从而使搜索结果的匹配程度达到最高, 因此分词的质量也就直接影响了搜索结果的精确度. 分词在文档索引的建立过程和用户提交检索过程中都存在. 2. 英文分词的原理 输入文本 -> 词汇分隔 阅读全文
posted @ 2022-11-01 18:18 茄子777 阅读(47) 评论(0) 推荐(0)
摘要: 概述: Es 本质上就是由分布式思想 + lucene 组合合成, 因为 lucene 的存在, 它比一般的分布式系统会稍微复杂一点, es 采取的分布式思想是 分片 + 副本 + 去中心化 lucene 核心倒排索引, 和 B-Tree 索引, k-v 索引数据结构不一样, 倒排索引是一种符合索引 阅读全文
posted @ 2022-11-01 18:12 茄子777 阅读(38) 评论(0) 推荐(0)