Elasticsearch 基础-1

Elasticsearch是一个基于 Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引孳,基于 RESTful web接口。

功能：
分布式的搜索引擎和数据分析引擎
全文检索（like），结构化检索(a=1)，数据分析(count/group by)
对海量数据进行近实时的处理(秒级)

特点：
可拓展性：大型分布式集群（数百台服务器）技术
技术整合：将全文检索、数据分析、分布式相关技术整合在一起
部署简单：开箱即用，很多默认配置不需关心，解压完成直接运行即可，拓展时，只需多部署几个实例即可，负载均衡、分片迁移集群内部自己实施。
接口简单：使用restful api经行交互，跨语言
功能强大：如全文检索，同义词处理，相关度排名

核心概念：
NRT（ Near Realtime）：近实时
1）写入数据时，过1秒才会被搜索到，因为内部在分词、录入索引
2）es搜索时：搜索和分析数据需要秒级出结果。

Cluster:集群
包含一个或多个启动着es实例的机器群。通常一台机器起一个es实例。同一网络下，集名一样的多个es实例自动组成集群，自动均衡分片等行为。默认集群名为"elasticsearch"。

Node:节点
每个es实例称为一个节点。节点名自动分配，也可以手动配置。

Document:文档
es中的最小数据单元。一个document就像数据库中的一条记录。通常以json格式显示。多个document存储于一个索引(Index)中。

Index:索引
包含一堆有相似结构的文档数据。
索引创建规则：
仅限小写字母;
不能包含\、/、*、？、"、<、>、、#以及空格符等特殊符号;
从7.0版本开始不再包含冒号
不能以-、或+开头
不能超过255个字节（注意它是字节，因此多字节字符将计入255个限制）

Field:字段
就像数据库中的列(Columns),定义每个document应该有的字段

Type:类型
每个索引里都可以有一个或多个type,type是index中的一个逻辑数据分类,一个type下的document，都有相同的field。
注意：6.0之前的版本有type(类型)概念，type相当于关系数据库的表，ES官方将在ES9.0版本中彻底删除type。

shard:分片
减轻单node的压力、充分利用机器性能、方便集群拓展
index数据过大时，将index里面的数据，分为多个shard,分布式的存储在各个服务器上面。可以支持海量数据和高并发，提升性能和吞吐量，充分利用多台机器的cpu。

replica：副本
为了容错
优点：高可用、只查询时可提高吞吐量
在分布式环境下，任何一台机器都会随时岩机，如果宕机，index的一个分片没有导致此index不能搜索。所以，为了保证数据的安全，我们会将每个index的分片进行备份，存储在另外的机器上。保证少数机器宕机es集群仍可以搜索。能正常提供查询和插入的分片叫做主分片(primaryshard),其余的叫做备份的分片(replicashard)。
es6默认新建索引时，5分片，1副本，也就是一主一备，共10个分片。所以，es集群最小规模为两台。es7 1分片，1副本，一共2分片。

数据库核心概念 vs Elasticsearch核心概念

安装：

下载
https://www.elastic.co/cn/downloads/elasticsearch
下载解压后文件说明：
bin:脚本目录，包括：启动、停止等可执行脚本
config:配置文件目录
data:索引目录，存放索引文件的地方
logs：日志目录
modules:模块目录，包括了es的功能模块
plugins:插件目录，es支持插件机制

3. 配置文件
位置：
ES的配置文件的地址根据安装形式的不同而不同：
使用zip、tar安装，配置文件的地址在安装目录的config下。
使用RPM安装，配置文件在/etc/elasticsearch下。
使用MSI安装，配置文件的地址在安装目录的config下，并且会自动将config目录地址写入环境变量ES_PATH_CONF

elasticsearch.yml
配置格式是YAML,可以采用如下两种方式：
方式1：层次方式

方式2：属性方式

常用的配置项
cluster.name:
配置elasticsearch的集群名称，默认是elasticsearch。建议修改成一个有意义的名称
node.name:
节点名，通常一台物理服务器就是一个节点，es会默认随机指定一个名字，建议指定一个有意义的名称，方便管理,一个或多个节点组成一个cluster集群
path.conf:
设置配置文件的存储路径，tar或zip包安装默认在es根目录下的config文件夹，rpm安装默认在/etc/ elasticsearch
path.data:
设置索引数据的存储路径，默认是es根目录下的data文件夹，可以设置多个存储路径，用逗号隔开
path.logs:
设置日志文件的存储路径，默认是es根目录下的1ogs文件夹
path.plugins:
设置插件的存放路径，默认是es根目录下的plugins文件夹
bootstrap.memory_lock: true
设置为true可以锁住ES使用的内存，避免内存与swap分区交换数据。
network.host:
设置绑定主机的ip地址，设置为0.0.0.0表示绑定任何ip,允许外网访问，生产环境建议设置为具体的ip。
http.port: 9200
设置对外服务的http端口，默认为9200。
transport.tcp.port: 9300
集群点之间通信端口
node.master:
指定该节点是否有资格被选举成为master结点，默认是true,如果原来的master宕机会重新选举新的master
node.data:
指定该节点是否存储索引数据，默认为true。
discovery.zen.ping.unicast.hosts: ["host1:port", "host2:port","..."]
设置集群中master节点的初始列表
discovery.zen.ping.timeout: 3s
设置ES自动发现节点连接超时的时间，默认为3秒，如果网络延迟高可设置大些。
discovery.zen.minimum_master_nodes:
主节点数量的最少值，此值的公式为：(master_eligible_nodes/2)+1，比如：有3个符合要求的主节点，那么这里要设置为2。
node.max_local_storage_nodes:
单机允许的最大存储节点数，通常单机启动一个节点建议设置为1，开发环境如果单机启动多个节点可设置大于1。

jvm.options
-Xms4g:最小内存
-Xmx4g:最大内存
设置最小及最大的JVM堆内存大小：
在jvm.options中设置-Xms和-Xmx:
1)两个值设置为相等
2)将Xmx设置为不超过物理内存的一半。

log4j2.properties
日志文件设置，ES使用log4j，注意日志级别的配置。

4、启动Elasticsearch：bin\elasticsearch.bat，es的特点就是开箱即，无需配置，启动即可。
注意：es7 windows版本不支持机器学习，所以elasticsearch.yml中添加如下几个参数
node.name: node-1
cluster.initial_master_nodes: ["node-1"]

问题：
Elasticsearch报错：received plaintext http traffic on an https channel, closing connection Netty4HttpChannel。现象，当启动Elasticsearch后，在浏览器输入地址 http://localhost:9200/ 后，报错
[2024-03-16T11:09:15,111][WARN ][o.e.h.n.Netty4HttpServerTransport] [node-1] received plaintext http traffic on an https channel, closing connection Netty4HttpChannel{localAddress=/[0:0:0:0:0:0:0:1]:9200, remoteAddress=/[0:0:0:0:0:0:0:1]:64177}
原因是Elasticsearch在Windows下开启了安全认证，虽然started成功，但访问http://localhost:9200/ 失败
解决方案：
config/elasticsearch.yml配置文件，把安全认证开关从原先的true都改成false，实现免密登录访问即可，修改这两处都为false后：

再重启并访问http://localhost:9200/，得到结果：

另可能需要配置的参数：跨域相关参数
http.cors.enabled:true
http.cors.allow-origin: /.*/

查看集群状态
访问：http://localhost:9200/_cluster/health

Status:集群状态。Green所有分片可用。Yellow所有主分片可用。Red主分片不可用，集群不可用。

连接ES的客户端：Kibana/postman/head插件

安装Kibana
1、kibana是es数据的前端展现，数据分析时，可以方便地看到数据。作为开发人员，可以方便访问es
2、下载，解压kibana。https://www.elastic.co/cn/downloads/kibana
3、启动Run bin/kibana (or bin\kibana.bat on Windows)
4、浏览器访问http:/localhost:5601 进入开发工具（dev Tools）界面。
5、发送get请求，查看集群状态GET /_cluster/health。相当于浏览器访问。

head插件
head插件是ES的一个可视化管理插件，用来监视ES的状态，并通过head客户端和ES服务进行交互，比如创建映射、创建索引等，head的项目地址在https:/github.com/mobz/elasticsearch-head
使用方式：
git clone git://github.com/mobz/elasticsearch-head.git
cd elasticsearch-head
npm install
npm run start
open http://localhost:9100/

posted @ 2024-03-16 09:40 py卡卡阅读(50) 评论(0) 收藏举报

刷新页面返回顶部

py卡卡

Elasticsearch 基础-1

公告