Elasticsearch - 模块


Elasticsearch 由许多模块组成,这些模块负责其功能。这些模块有两种类型的设置,如下 -

  • 静态设置- 在启动 Elasticsearch 之前,需要在配置 (elasticsearch.yml) 文件中配置这些设置。您需要更新集群中的所有关注节点以反映这些设置的更改。

  • 动态设置- 这些设置可以在实时 Elasticsearch 上设置。

我们将在本章的以下部分讨论 Elasticsearch 的不同模块。

集群级路由和分片分配

集群级别设置决定分片到不同节点的分配以及分片的重新分配以重新平衡集群。以下是控制分片分配的设置。

集群级分片分配

环境 可能的值 描述
集群.路由.分配.启用
全部 此默认值允许对所有类型的分片进行分片分配。
初选 这允许仅对主分片进行分片分配。
新初选 这允许仅对新索引的主分片进行分片分配。
没有任何 这不允许任何分片分配。
cluster.routing.allocation .node_concurrent_recoveries 数值(默认为 2) 这限制了并发分片恢复的数量。
cluster.routing.allocation .node_initial_primaries_recoveries 数值(默认为 4) 这限制了并行初始主要恢复的数量。
cluster.routing.allocation.same_shard.host 布尔值(默认为 false) 这限制了同一物理节点中同一分片的多个副本的分配。
Index.recovery.concurrent_streams 数值(默认为 3) 这控制从对等分片恢复分片时每个节点打开的网络流的数量。
Index.recovery.concurrent_small_file_streams 数值(默认为 2) 这可以控制分片恢复时每个节点打开的大小小于 5mb 的小文件流的数量。
集群.路由.重新平衡.启用
全部 此默认值允许平衡所有类型的分片。
初选 这允许仅对主分片进行分片平衡。
复制品 这允许仅对副本分片进行分片平衡。
没有任何 这不允许任何类型的分片平衡。
cluster.routing.allocation .allow_rebalance
总是 此默认值始终允许重新平衡。
Index_primaries_active 这允许在分配集群中的所有主分片时进行重新平衡。
Index_all_active 这允许在分配所有主分片和副本分片时进行重新平衡。
cluster.routing.allocation.cluster_concurrent_rebalance 数值(默认为 2) 这限制了集群中并发分片平衡的数量。
集群.路由.分配.balance.shard 浮点值(默认为 0.45f) 这定义了分配在每个节点上的分片的权重因子。
cluster.routing.allocation.balance.index 浮点值(默认为 0.55f) 这定义了在特定节点上分配的每个索引的分片数量的比率。
cluster.routing.allocation.balance.threshold 非负浮点值(默认为 1.0f) 这是应该执行的操作的最小优化值。

基于磁盘的分片分配

环境 可能的值 描述
cluster.routing.allocation.disk.threshold_enabled 布尔值(默认 true) 这将启用和禁用磁盘分配决策程序。
cluster.routing.allocation.disk.watermark.low 字符串值(默认85%) 这表示磁盘的最大使用量;此后,无法将其他分片分配给该磁盘。
cluster.routing.allocation.disk.watermark.high 字符串值(默认为 90%) 这表示分配时的最大使用量;如果在分配时达到这一点,那么 Elasticsearch 会将该分片分配到另一个磁盘。
集群信息更新间隔 字符串值(默认30秒) 这是磁盘使用情况检查之间的时间间隔。
cluster.routing.allocation.disk.include_relocations 布尔值(默认 true) 这决定在计算磁盘使用情况时是否考虑当前分配的分片。

发现

该模块帮助集群发现并维护其中所有节点的状态。当集群中添加或删除节点时,集群的状态会发生变化。集群名称设置用于创建不同集群之间的逻辑差异。有一些模块可以帮助您使用云供应商提供的 API,如下所示 -

  • Azure 发现
  • EC2发现
  • Google 计算引擎发现
  • 禅宗发现

网关

该模块在整个集群重新启动时维护集群状态和分片数据。以下是该模块的静态设置 -

环境 可能的值 描述
gateway.expected_nodes 数值(默认为 0) 预计集群中用于本地分片恢复的节点数量。
gateway.expected_master_nodes 数值(默认为 0) 开始恢复之前集群中预计存在的主节点数量。
gateway.expected_data_nodes 数值(默认为 0) 开始恢复之前集群中预期的数据节点数。
gateway.recover_after_time 字符串值(默认5m) 这是磁盘使用情况检查之间的时间间隔。
集群.路由.分配。磁盘.include_relocations 布尔值(默认 true)

这指定了恢复过程等待启动的时间,无论集群中加入的节点数量如何。

gateway.recover_after_nodes
gateway.recover_after_master_nodes
gateway.recover_after_data_nodes

HTTP协议

该模块管理 HTTP 客户端和 Elasticsearch API 之间的通信。可以通过将 http.enabled 的值更改为 false 来禁用此模块。

以下是控制此模块的设置(在elasticsearch.yml中配置) -

序列号 设置及说明
1

http端口

这是访问Elasticsearch的端口,范围为9200-9300。

2

http.publish_port

此端口用于 http 客户端,在防火墙情况下也很有用。

3

http.bind_host

这是http 服务的主机地址。

4

http.publish_host

这是 http 客户端的主机地址。

5

http.max_content_length

这是 http 请求中内容的最大大小。其默认值为 100mb。

6

http.max_initial_line_length

这是 URL 的最大大小,默认值为 4kb。

7

http.max_header_size

这是最大的 http 标头大小,默认值为 8kb。

8

http.压缩

这会启用或禁用对压缩的支持,其默认值为 false。

9

http.pipelinig

这将启用或禁用 HTTP 管道。

10

http.pipelines.max_events

这限制了关闭 HTTP 请求之前要排队的事件数量。

指数

该模块维护为每个索引全局设置的设置。以下设置主要与内存使用有关 -

断路器

这用于防止操作导致 OutOfMemroyError。该设置主要限制JVM堆大小。例如,indices.breaker.total.limit 设置,默认为 JVM 堆的 70%。

现场数据缓存

这主要用于在字段上聚合时。建议有足够的内存来分配。用于字段数据缓存的内存量可以使用indices.fielddata.cache.size设置来控制。

节点查询缓存

该内存用于缓存查询结果。此缓存使用最近最少使用 (LRU) 驱逐策略。Indices.queries.cahce.size 设置控制此缓存的内存大小。

索引缓冲器

该缓冲区将新创建的文档存储在索引中,并在缓冲区满时刷新它们。像indices.memory.index_buffer_size这样的设置控制为此缓冲区分配的堆数量。

分片请求缓存

该缓存用于存储每个分片的本地搜索数据。可以在创建索引期间启用缓存,也可以通过发送 URL 参数来禁用缓存。

Disable cache - ?request_cache = true
Enable cache "index.requests.cache.enable": true

指数恢复

它在恢复过程中控制资源。以下是设置 -

环境 默认值
Index.recovery.concurrent_streams 3
Index.recovery.concurrent_small_file_streams 2
Index.recovery.file_chunk_size 512kb
indexs.recovery.translog_ops 1000
indexs.recovery.translog_size 512kb
索引.恢复.压缩 真的
Index.recovery.max_bytes_per_sec 40MB

TTL间隔

生存时间 (TTL) 间隔定义文档的时间,在此时间之后文档将被删除。以下是控制此过程的动态设置 -

环境 默认值
索引.ttl.间隔 60年代
索引.ttl.bulk_size 1000

节点

每个节点都可以选择是否成为数据节点。您可以通过更改node.data设置来更改此属性。将值设置为false定义该节点不是数据节点。