配置 ElasticSearch: 系统，网络和内存

写写 ElasticSearch 的系统配置和内存使用

动机

之前在制作词典网站时，我用 ElasticSearch 来索引和搜索数据，而平时的工作也与 ES 有所接触。

这里想简单记录一下，配置和运行 ElasticSearch 的几个事儿：

前半部分围绕 Linux 系统配置和一些集群配置，
后半部分写一写 ES 的内存配置和 JVM 的内存指针

这些配置将影响 ElasticSearch 的性能，可用性和稳定性。

这篇文章不包括 ElasticSearch 的调优 - 因为我觉得这个非常取决于使用场景。

系统配置

这儿讨论的许多系统配置和思路也适用于其他的数据密集型系统，比如 Kafka 消息系统。

集群的网络环境

通常人们会使用多个 ElasticSearch 节点，每个运行在一台机器上，让它们形成集群。

节点之前的数据传输是频繁的，同时，选举集群的首脑 / 主节点 master 也于依赖网络传输。

如果网络传输不稳定或者比较慢，集群选举可能失败，数据的备份和搜索都可能变得缓慢。

所以呢，这些节点应该在地理位置上是相近的。

ElasticSearch 是支持节点间用 DNS 名称来连接的，但那样依赖于定期的 DNS 查询，显然就慢一些。

所以，节点最好在同一个子网下，并且它们通过提前配置好的 IP 地址来沟通。

现在大伙儿都喜欢把基础设施搬上云，所以通常节点们会在同一个虚拟云 / VPC (virual private network) 的同一个子网内。

数据传输加密

节点间的交流是加密的，ElasticSearch 支持节点间使用 TLS 协议沟通。

这意味着大伙儿要给每一个节点配置一个域名证书 / TLS certificate 和密钥 / private key.

当然啦，取决于网络环境和对数据的安全需求，证书的签发者 (Certificate Authority) 可以是开发者自己，公司，或者一个公共的 CA.

具体步骤可以看 ElasticSearch 的官方文档

节点数量

常见的做法是：使用大于1的奇数个节点用于集群管理。主要原因是，分布式系统的选举是一个少数服从多数的过程。

选举时，一个集群需要 roundDown(nodes / 2) + 1 张票来决定一个主节点。

使用大于1个管理节点的好处是：当有1个管理节点挂了的时候，集群仍然能依赖于其他管理节点继续工作。

使用2个节点时，roundDown(nodes / 2) + 1 = 2 当一个管理节点挂了后便无法选举（无法获得2张票）也就无法工作。

从能够容纳的崩溃节点的数量来看，使用偶数 (2N) 个管理节点是等价于 (2N - 1) 个节点的。

比如4个管理节点，roundDown(nodes / 2) + 1 = 3 在挂了两个之后便无法完成选举了，这方面与3节点相同。
读者可能想说，使用4个管理节点时，挂俩节点的概率是小于使用3个节点的，所以稳定性更高 - 这也对。

比如要配置一个拥有3个管理节点的集群，在管理节点上的配置文件是这样的：

node.master: true
discovery.zen.minimum_master_nodes: 2

另一方面，人们通常把数据节点与管理节点区分开来，来增加整体的稳定性。管理节点本身不存储文档数据，也不处理搜索请求。

内存映射区

ElasticSearch 依赖于文件系统来管理（索引存储和搜索）数据。

如果一个 ES 节点上存着大量的文档，它可能在搜索时打开大量的文件，并把文件内容加载到内存。

这个操作在 Linux 系统上意味着创建大量的内存映射区域 / memory map regions - 而它的数量是有上限的。

在 Linux 系统中，我们可以通过修改系统配置文件/etc/sysctl.conf 来增加可用的内存映射区数量 - 比如添加这样一行：

vm.max_map_count=262144

这将把内存映射区的数量上限更改为 262,144 这将是默认值 65536 (还是 65535) 的4倍 -

当然啦，这个数值取决于系统自身的内存大小，也取决于 ES 需要索引的文档的数量，搜索的文档数量，等等。

如果你使用像 Kafka 这样的依赖于文件系统的程序，同样可能需要增加内存映射区的数量，来避免 OOM 的问题。

最后想说的是，系统配置修改后需要运行 sysctl -p 并重启才能让它生效。

内存交换区

当系统的可用内存不足时，一部分被使用的内存就会被放到交换区里 - 也就是磁盘文件上。

相对于正常的内存分配和加载，这个过程（和从交换区加载数据）是十分缓慢的，我们不希望它影响到 ElasticSearch 程序。

大伙儿可以通过运行这个指令来临时关闭它：

sudo swapoff -a

如果想永久改动，要在 Linux 操作系统的文件系统配置文件 /etc/fstab 里把 swap 那一行给删了 / 注释掉。

另一方面呢，Linux 系统也提供一些方式，来把程序的内存锁定住，防止它们被移到交换区。

这需要我们启用一个 ES 的配置选项：

bootstrap.memory_lock: true

普通的进程是没有权限来锁定部分内存的，所以需要另一个系统配置改动，在/etc/security/limits.conf 加上：

elasticsearch soft memlock unlimited
elasticsearch hard memlock unlimited

这里假设了 ElasticSearch 进程是以用户 elasticsearch 的权限运行的，如果用户名不同，大家要更改一下每行的第一个词。

或者呢，大伙儿也可以用 * 来给予所有进程权限，尽管这么做并不建议。

进程的文件数量

程序可以通过系统 API 开打开文件，但每个进程能同时打开的文件数量也有上限：65536 (还是 65535).

这个上限可以在系统配置文件 /etc/security/limits.conf 中修改：

* soft nofile 262144
* hard nofile 262144

这俩个配置与系统的软硬链接没啥关系 soft 设置的数值可能在程序运行时被修改，而 hard 则不行（除非程序以 root 权限运行）

另外想提一下的是，大家应该注意一下/etc/security/limits.d/ 这个目录，这里可能也有一部分配置文件。

比如说我们从 AWS EC2 上选定或自定义某个 image / 镜像，它通常会有一些自定义的系统配置。

目录 /etc/security/limits.d/ 下的配置文件是按文件名的字母排序后被加载的 - 之后被加载的配置可以覆盖之前的。

另一个常见的做法是在这里创建一个自定义的配置文件，确保它在（字母排序）最后被加载。

ElasticSearch 需要的内存

1 - 建议的最小堆内存是 1GB

2 - 建议的堆内存上限是 26 - 30GB

3 - 建议堆内存上下限一致

4 - 建议内存不超过系统内存的一半。

可以通过环境变量 ES_JAVA_OPTS 来设置他们，比如把它俩都设置为2GB:

ES_JAVA_OPTS="-Xms2g -Xmx2g" ./bin/elasticsearch

堆内存上下限一致

如果它俩不一致的话，JVM 可以动态地调整一个 Java 程序的内存使用。动态调整意味着两种操作：

1 - 将不需要的内存归还给系统

2 - 向系统请求更多的内存

这两个操作都需要调用系统内核的 API，需要时间和 CPU 资源来完成。

把堆内存上的下限设为同一数值意味着禁止这样的动态调整，也就避免了这些操作。

另一方面呢，如果程序初始内存比较小 (即便上限比较大)，在内存扩容之前，必然有更多的时间和 CPU 被用在垃圾回收上。

在严重的时候，垃圾回收是可能中断程序的 / Stop The World. 这个现象我在工作时见过一次，此时 ES 无法搜索也无法接收数据。

不超过系统内存的一半

ElasticSearch 既依赖于系统的网络，来提供搜索服务和与其他节点传递数据，又依赖于文件系统存储数据。

系统本身需要一定的内存来提供这些功能，所以从（业界的）经验来看，单个 ES 程序占用 50% 以内的系统内存是没问题的。

这里还有一个潜在假设：在一台机器上就运行着一个 ElasticSearch 程序，没有其他服务等等 - 这也是常见做法。

最小1GB

最小值 1GB 也比较容易解释：ElasticSearch 程序本身运行时就需要至少这么多，读者可以本地运行一个试试。

从我个人的经验来看，单个 ElasticSearch (7.4版本) 进程消耗 1GB - 1.2 GB 左右的内存，运行若干个月没出现过问题。

而且我用的的虚拟机 / VPS 总共只有 2GB 的内存，上面还跑了 Nginx, Postgres DB 和一个 Web 服务器。

当然啦，在负载不大的时候，这些程序本身对内存的消耗也不高。

但最大值设定就需要一些篇幅来解释了：这与 JVM 的内存管理和对象指针有关。

Ordinary Object Pointer

JVM 在设计 / 实现时，内部采用「普通内存指针 / Ordinary Object Pointer」来存储对象的地址。

取决于程序使用多少内存，JVM 可能使用不同类型 / 大小的指针：比如 32 比特 (4字节) 的，或者 64 比特 (8字节) 的。

当然啦，32比特的指针更节约空间，所以被优先使用。

内存空间的访问最小可以精确到每个 byte / 字节 - 似乎也有人把它称作访问细粒度。

所以呢，32比特的指针只能覆盖 40亿 (2的32次方) 个内存位置，也就是一个4GB (40亿字节) 的内存空间。

Compressed Ordinary Object Pointer

为了增加它的范围，JVM 调整了对象的内存使用 - 让每个对象的内存占用都是至少8字节，或者它的倍数。

这相当于强制让每个对象在内存中以某种方式对齐 / align 放置。
我们可以通过 JVM 变量来手动改变这个数值 -XX:ObjectAlignmentInBytes

这个调整意味着，每个对象的内存地址都是8的倍数 - 也就是说地址 (的二进制表示) 的后三位数都是0.

比如，在二进制中，1000 表示8，2000 表示16.

既然是这样，那么在保存一个地址时，我们也就不需要最后的3个比特 - 它们总是0.

因此呢，每个32位指针现在只要用29比特就能覆盖整个4GB 的内存空间 - 而32位全用上时，就能覆盖 32GB 的内存空间。

三个比特能表达8（2的3次方）个有效数字，与其他29个比特一组合，它们就能表达原来8倍的空间。

更准确地说，我们现在往指针中存的东西变成了「对象的偏移量 / Object Offset」而不是内存地址，也不是地址偏移量。

Compressed Ordinary Object Pointer

当然啦，这样做的代价是，每次 JVM 获得指针里的数值时，都需要一点运算：把32比特往左推3位 / 相当于把数字乘8.

这样类型的指针也就被称作「压缩型普通指针 / Compressed Ordinary Object Pointer」

像许多配置那样，我们也可以通过 JVM 参数 -XX:+UseCompressedOops 来开启 / 关闭这个特性，它时默认开启的。

理论上来说，当一个 Java 程序使用超过 32GB 内存时，JVM 便需要使用 64-bit 指针，而停止使用压缩型指针。

实际上呢，现实中这个的阈值是低于 32GB 的，大概在26GB左右，这就涉及 JVM 中的另一个概念。

Zero-Based Compressed Ordinary Object Pointers

现在使用的 JVM 大多数是64位的，用于64位系统上。像所有的用户进程那样，它们在启动时从系统获得一个虚拟的内存空间。

比较特殊的是，JVM 会尝试请求一个地址从0开始的内存空间。这样做的好处是计算量减少，程序更快，因为计算虚拟内存地址时不需要加（内存空间的）偏移量，拿到指针里的数值后，做个比特推移就好。因此，从虚拟内存转换到物理内存的这个过程也就变得更快。

熟悉程序内存的读者大概会想到栈内存：每个栈都要额外管理一个 base pointer / 基准指针，加载栈上的变量时，都需要通过基准指针 + 偏移量来计算虚拟内存地址。

结合之前的压缩型指针，在这种情况下 JVM 所用的对象指针被称作「无偏移的压缩型指针 / Zero-Based Compressed Ordinary Object Pointers」

从实验来看，当被请求的虚拟内存大小在 26GB 以下时，目前大多数系统是能满足「地址从0开始的内存空间」这个请求的。

ElasticSearch 本身是一个 Java 程序，所以运行在大多数系统上时，推荐的最大内存设定是 26GB.

验证内存上限

理想情况下呢，我们还是希望依照不同的系统 / 硬件来决定，所以可以用这两个 JVM 参数，来帮助我们判断：

-XX:+UnlockDiagnosticVMOptions -XX:+PrintCompressedOopsMode

在它俩被使用之后呢，JVM 会输出更多的日志信息，比如这个：

heap address: 0x000000011be00000, size: 27648 MB, zero based Compressed Oops

当看到这样的信息时，我们就知道当前的内存上限 (27648 MB) 并不会导致程序运行更慢，因为 JVM 能够使用无偏移的压缩型指针.

当然啦，日志信息也可能是这样的：

heap address: 0x0000000118400000, size: 28672 MB, Compressed Oops with base: 0x00000001183ff000

这意味着 JVM 没能从操作系统那儿获得「从0开始的内存空间」也就转而采用普通压缩型指针，程序的运行效率相对降低。

虚拟机和 Java 版本

想额外说一句，并不是所有的虚拟机（的不同 Java 版本）都实现了压缩型指针，或者无偏移的压缩型指针。

这篇文章假设了大伙儿都在用比较流行的 HotSpot 虚拟机。

参考和引用

比较常用的 HotSpot 虚拟机文档：

https://www.baeldung.com/jvm-compressed-oops

教程网站 Bäldung 给 JVM 指针的实现做了很好的解释

https://www.baeldung.com/jvm-compressed-oops

ElasticSearch 节点间的发现与选举

https://www.elastic.co/guide/en/elasticsearch/reference/6.8/modules-discovery-zen.html

博客