Elasticsearch 的索引优化常规项

优化常规项

https://blog.csdn.net/bairo007/article/details/132019575

1、按实际情况适当调整主分片的数量

  • 如果主分片数量太少,会导致每个分片中的数据量过大,而且无法利用集群中所有节点的计算资源。
  • 如果主分片数量太多,会导致索引过度分散,造成数据迁移和调整的负担。

2、按实际情况适当调整主分片的数量

副本数量的设置会影响索引的可用性和读写性能。如果副本数量太少,当某个节点故障时,将无法保证数据的可用性。如果副本数量太多,会占用过多的磁盘空间和网络带宽,降低写入性能。

一般来说,我们可以通过以下两种方式来调整副本数量:

  • 在创建索引时指定副本数量;
  • 在已有索引上执行API操作来更改副本数量。

Mapping

在Elasticsearch中,Mapping是将文档字段映射到索引中的数据结构的过程。Mapping定义了索引中每个字段的类型分词器存储方式等信息,这些信息对于搜索和聚合操作来说非常重要。通过对Mapping进行优化,我们可以提高查询和聚合的性能,并减少索引的存储空间

明确字段类型

在定义Mapping时,我们需要尽可能明确每个字段的类型。Elasticsearch支持的字段类型包括:

  • 字符串(text、keyword);
  • 数值(long、integer、short、byte、double、float、half_float、scaled_float);
  • 日期(date);
  • 布尔值(boolean);
  • 二进制(binary);
  • 地理位置(geo_point、geo_shape)

在选择字段类型时,我们需要根据字段的实际含义和使用场景进行选择。例如,对于需要进行全文检索的文本字段,通常使用text类型。而对于需要进行精确匹配的文本字段,通常使用keyword类型。另外,对于数值类型的字段,我们还需要注意字段是否需要进行聚合操作,因为不同的字段类型在聚合时的性能表现也不同。

使用Field Data

Field Data是Elasticsearch中一种用于聚合操作的数据结构,它可以将文档字段的值加载到内存中,从而提高聚合操作的性能。在使用Field Data时,我们需要注意以下几点:

  • Field Data只适用于不可变的字段;
  • Field Data占用内存,因此在选择使用Field Data时需要注意内存使用情况;
  • Field Data对于高基数(cardinality)字段的性能表现较差。
使用嵌套字段

Elasticsearch支持嵌套字段,即在一个文档中嵌套另一个文档。使用嵌套字段可以简化查询和聚合操作,并提高查询性能。在使用嵌套字段时,我们需要注意以下几点:

  • 嵌套字段的定义必须在Mapping中进行;
  • 嵌套字段不能直接进行全文检索;
  • 在使用嵌套字段进行聚合操作时,需要使用嵌套聚合(nested aggregation)

Analyzer

Analyzer是Elasticsearch中用于处理文本的组件,它可以将文本分割成一系列的词项(term),并将这些词项存储在索引中。Analyzer包括三个组件:字符过滤器(character filter)、分词器(tokenizer)和词项过滤器(token filter)

字符过滤器

字符过滤器用于对文本进行预处理,例如删除HTML标签、转换特殊字符等。Elasticsearch提供了一些内置的字符过滤器,例如HTML Strip Character Filter、Mapping Character Filter等

分词器

分词器用于将文本分割成一系列的词项。Elasticsearch提供了多种内置的分词器,例如Standard Tokenizer、Whitespace Tokenizer、Keyword Tokenizer等。另外,我们也可以通过自定义插件来实现自定义的分词器

词项过滤器

词项过滤器用于对分词后的词项进行过滤、修改或替换。Elasticsearch提供了多种内置的词项过滤器,例如Lowercase Token Filter、Stop Token Filter、Synonym Token Filter等。另外,我们也可以通过自定义插件来实现自定义的词项过滤器。。

Analyzer的优化

在使用Analyzer时,我们需要注意以下几点:

  • 尽可能减少字符过滤器和词项过滤器的数量,因为它们会增加处理时间;
  • 根据实际需求选择合适的分词器和词项过滤器;
  • 在进行全文检索时,应该使用与索引时相同的Analyzer。

总结

通过对Elasticsearch索引进行优化,我们可以提高搜索和聚合的性能,并减少存储空间的占用。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/790928.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

管理相关方参与的工具与技术

一、沟通管理计划 沟通管理计划是确保项目信息在相关方之间有效传递的基石。它详细描述了如何收集、生成、分发、存储和处置项目信息。沟通管理计划包括: 确定项目沟通的需求;明确沟通的方式、频率和渠道;规定信息分发和存储的责任;确定沟通效果的评估方法。二、相关方分析…

中文bert预训练

我们知道bert-base的大小大约在400M左右,有时候我们的任务比较简单,并不需要如此重量级的bert,这时候,我们可以使用轻量级的tiny-bert(100M以内),在保证性能的同时,降低对硬件的门槛…

Kafka中groupid和auto.offset.reset的关系

当消费者已经存储偏移量时 不更改groupid(消费者)时:无论auto.offset.reset是latest还是earliest,都会从记录的偏移量开始消费,即最新的地方消费。 更改groupid(消费者)时:auto.offset.reset是latest时,从最新消费 aut…

Redis安装-Docker

安装redis的docker容器 1、创建redis挂载目录 mkdir -p /liuchaoxu/redis/{data,conf}2、复制配置文件 在 /liuchaoxu/redis/conf 目录中创建文件 redis.conf,文件从 redis-6.2.7.tar.gz 中解压获取 修改默认配置(从上至下依次): #bind 127.0.0.1 …

游戏引擎中的物理应用

一、 角色控制器 Character Controller和普通的动态对象(Dynamic Actor )是不同的,主要的三个特点是: 它拥有可控制的刚体间的交互假设它是有无穷的摩擦力(可以站停在位置上),没有弹性加速和刹车几乎立即…

《QT实用小工具·十》本地存储空间大小控件

1、概述 源码放在文章末尾 本地存储空间大小控件,反应电脑存储情况: 可自动加载本地存储设备的总容量/已用容量。进度条显示已用容量。支持所有操作系统。增加U盘或者SD卡到达信号。 下面是demo演示: 项目部分代码如下: #if…

spring项目监听redis的key失效事件

spring项目监听redis的key失效事件 redis的key失效事件监听配置 注意: redis单台可以监听key失效事件 只在database 0上支持这个特性 哨兵模式可以监听redis的key失效事件,主的挂了,从的变主,也能监听到 集群模式下, 无法获取key失效通知,需要监听所有的服务才能实现 修改…

云原生数据库特征

分层架构 处理流程分为 计算服务层、存储服务层、共享服务层。 计算服务层负责解析SQL,转化为物理执行计划。 存储服务层负责数据缓存与事务处理。 共享存储层负责数据的持久化存储。 资源解耦与池化 虚拟化技术实现资源池化,按需按量使用&#xf…

vue项目引入微信sdk: npm install weixin-js-sdk --save报错

网上查到要用淘宝的镜像 同事告知旧 域名:https://registry.npm.taobao.org/已经不能再使用 使用 npm config set registry http://registry.npmmirror.com

css心跳动画

图标引入 <img class"icon" src"heart.svg" alt"" srcset""> CSS代码 <style>.icon {animation:bpm 1s linear,pulse 0.75s 1s linear infinite;}keyframes pulse {from,75%,to {transform: scale(1);}25% {transform:…

极简云验证 download.php 文件读取漏洞复现

0x01 产品简介 极简云验证是一款开源的网络验证系统&#xff0c;支持多应用卡密生成&#xff1a;卡密生成 单码卡密 次数卡密 会员卡密 积分卡密、卡密管理 卡密长度 卡密封禁 批量生成 批量导出 自定义卡密前缀等&#xff1b;支持多应用多用户管理&#xff1a;应用备注 应用版…

智能仪器驱动企业数字化转型 迈向智慧未来!

在当今数字化时代&#xff0c;企业正面临着前所未有的挑战和机遇。为了在竞争激烈的市场中立足并实现可持续发展&#xff0c;数字化转型已成为企业的当务之急。智能仪器作为数字化转型的核心驱动力&#xff0c;以其卓越的性能和创新的技术&#xff0c;为企业开启了通向智慧未来…

C_C++数据的在内存中的分布

C/C内存分布 在编程世界中&#xff0c;C和C语言一直以其强大的性能和灵活性著称。然而&#xff0c;这种强大和灵活的背后&#xff0c;离不开对内存分布的深入理解和熟练掌握。本文将详细介绍C/C程序中的内存分布&#xff0c;包括栈、堆和全局变量的存储区域。下面是c/c中&…

hyperf 多数据库(要分库的来看)实时连接第二方案(无需预先定义config连接池,无需重启项目)

第一方案连接&#xff1a; https://blog.csdn.net/mark885/article/details/137040284思路&#xff1a;通过 Hyperf\Contract\ConfigInterface 配置接口类修改内存中的配置信息&#xff0c;在框架启动完成后的事件中定义监听&#xff08;效果是框架启动后自动设置一次数据库连…

基于OrangePi Zero2的智能家居项目(开发阶段)

智能家居项目的软件实现 紧接上文 基于OrangePi Zero2的智能家居项目&#xff08;准备阶段&#xff09;-CSDN博客 目录 一、项目整体设计 1.1项目整体设计 1.2具体划分 二、开发工作的前期准备 1、进行分类&#xff0c;并用Makefile文件进行管理 参考&#xff1a;自己创…

基于单片机的智能报站系统仿真设计

**单片机设计介绍&#xff0c;基于单片机的智能报站系统仿真设计 文章目录 一 概要二、功能设计设计思路 三、 软件设计原理图 五、 程序六、 文章目录 一 概要 基于单片机的智能报站系统仿真设计概要是关于采用单片机技术实现公交车报站功能的系统设计概述。以下是对该设计的…

Unity 学习日记 13.地形系统

下载源码 UnityPackage 1.地形对象Terrain 目录 1.地形对象Terrain 2.设置地形纹理 3.拔高地形地貌 4. 绘制树和草 5.为地形加入水 6.加入角色并跑步 7.加入水声 右键创建3D地形&#xff1a; 依次对应下面的按钮 || 2.设置地形纹理 下载资源包 下载资源包后&#x…

Linux setenv命令教程:如何在Linux中设置环境变量(附实例详解和注意事项)

Linux setenv命令介绍 setenv是C shell&#xff08;csh&#xff09;的内置函数&#xff0c;用于定义环境变量的值。如果setenv没有给出任何参数&#xff0c;它会显示所有环境变量及其值。如果只指定了VAR&#xff0c;它将设置一个名为VAR的环境变量&#xff0c;值为空&#xf…

vue2+element-ui 实现OSS分片上传+取消上传

遇到问题&#xff1a;项目中需要上传500MB以上的视频。一开始使用上传组件el-upload&#xff0c;调用后台接口&#xff0c;但是出现了onprogress显示百分百后接口一直pending&#xff0c;过了很多秒后接口才通&#xff0c;如果遇到大文件的话&#xff0c;接口就会报超时。 解决…

基于卷积神经网络的苹果等级分类系统(pytorch框架)【python源码+UI界面+前端界面+功能源码详解】

功能演示&#xff1a; 苹果等级分类系统&#xff0c;基于vgg16&#xff0c;resnet50卷积神经网络&#xff08;pytorch框架&#xff09;_哔哩哔哩_bilibili &#xff08;一&#xff09;简介 基于卷积神经网络的苹果等级分类系统是在pytorch框架下实现的&#xff0c;系统中有两…