Elasticsearch数据模型最佳实践

tamoadmin 热门赛事 2024-04-25 31 0

在Elasticsearch中，数据模型的设计对性能和可扩展性有着重要影响。以下是根据搜索结果整理出的一些最佳实践。

1.调优索引速度

批量请求：使用批量请求可以显著提高索引速度。应通过基准测试来确定最佳的批量大小，以避免群集受到内存压力。如果群集请求太大，可能会导致无法跟上当前索引速率，这时应暂停索引，并使用随机指数回退策略再次尝试。

多线程或多worker发送数据：为了充分利用集群的资源，应该从多个线程或进程发送数据。这不仅可以更好地利用资源，还可以降低每个fsync的成本。

调大refresh_interval：默认的index.refresh_interval是1s，这会导致频繁的分段刷新。增大这个值可以减少未来的合并压力，并提高索引速度。如果需要一次加载大量数据，可以将index.refresh_interval设置为1来禁用刷新，但应注意这会使索引处于危险之中，因为任何分片的丢失都将导致数据丢失。

设置参数，禁止OS将es进程swap出去：应确保操作系统不会swappingoutthejava进程，以避免内存资源的浪费。

为filesystemcache分配一半的物理内存：文件系统缓存将用于缓冲I/O操作，应确保将运行Elasticsearch的计算机的内存至少减少到文件系统缓存的一半。

使用自动生成的id(autogeneratedids)：使用自动生成的ID可以跳过昂贵的文档身份验证操作，从而提高索引速度。

2.数据建模

处理关联关系：Elasticsearch不擅长处理索引实体之间的关系。可以通过Denormalization、Nested对象或Parent/Child对象来实现关系数据的管理。Denormalization将所有关联的数据放在一个document中，Nested对象将嵌套文档中的每个关联对象保存在独立的Lucene文档中，而Parent/Child对象通过join把父文档和子文档关联起来。