ES常识9:如何实现同义词映射(搜索)

在 Elasticsearch(ES)中实现同义词映射(如“美丽”和“漂亮”),核心是通过 同义词过滤器(Synonym Token Filter) 在分词阶段将同义词扩展或替换为统一词项,从而让搜索时输入任意一个同义词都能匹配到所有相关文档。以下是分步骤的实现方案,结合 ES8 的特性说明:

一、同义词处理的核心原理

ES 的同义词处理发生在 分词(Analysis)阶段,通过自定义分析器(Analyzer)中的 同义词过滤器 将输入的文本(无论是索引文档还是搜索词)中的同义词替换或扩展为统一词项。例如:

  • 索引文档时,若文档包含“美丽”,会被扩展为“美丽 漂亮”;
  • 搜索时输入“漂亮”,也会被扩展为“美丽 漂亮”,从而匹配到所有包含“美丽”或“漂亮”的文档。

二、同义词配置的关键步骤

1. 定义同义词规则

同义词规则需按 ES 支持的语法编写,常见格式为:

美丽, 漂亮 => 美丽  // 替换模式:将“美丽”和“漂亮”替换为“美丽”(保留一个词项)
# 或
美丽, 漂亮          // 扩展模式:将“美丽”或“漂亮”扩展为“美丽 漂亮”(保留所有词项)
  • => 符号表示替换(仅保留右侧词项);无符号表示扩展(保留所有词项)。
  • # 为注释行。
2. 创建包含同义词过滤器的自定义分析器

在 ES 中,需将同义词过滤器绑定到自定义分析器,并指定该分析器用于目标字段的索引和查询。

示例(通过 ES API 创建索引并配置分析器)

PUT /my_index
{"settings": {"analysis": {"filter": {"my_synonym_filter": {"type": "synonym",          // 同义词过滤器类型"synonyms_path": "synonyms.txt",  // 同义词文件路径(支持本地文件或远程 URL)"expand": true,             // 是否扩展同义词(默认 true)"lenient": true             // 忽略解析错误(如无效规则)}},"analyzer": {"my_synonym_analyzer": {"tokenizer": "standard",    // 基础分词器(如 standard、ik_max_word 等)"filter": ["lowercase",              // 小写转换(可选,根据业务需求)"my_synonym_filter"       // 绑定同义词过滤器]}}}},"mappings": {"properties": {"content": {"type": "text","analyzer": "my_synonym_analyzer",   // 索引时使用的分析器"search_analyzer": "my_synonym_analyzer"  // 查询时使用的分析器(可与索引分析器不同)}}}
}
3. 同义词文件的存储与加载
  • 本地文件:将 synonyms.txt 放在 ES 节点的 config 目录下(如 config/synonyms.txt),需确保所有节点路径一致。
  • 远程文件(ES 8+ 支持):通过 synonyms_path 指定 HTTP/HTTPS URL(如 https://example.com/synonyms.txt),ES 会定期拉取更新(需配置 update_interval):
    "my_synonym_filter": {"type": "synonym","synonyms_path": "https://example.com/synonyms.txt","update_interval": "1h"  // 每小时检查一次更新
    }
    

三、索引阶段 vs 查询阶段应用同义词

同义词过滤器可在 索引时(分析文档内容)和 查询时(分析搜索词)应用,需根据业务需求选择:

1. 索引时应用(推荐场景:文档内容固定)
  • 配置:在 analyzer 中绑定同义词过滤器(索引和查询均使用该分析器)。
  • 效果:文档中的同义词会被预先扩展或替换,搜索时输入任意同义词均可匹配。
  • 优势:查询时无需处理同义词扩展,降低查询耗时。
  • 缺点:新增同义词需重新索引文档(否则旧文档无法匹配新同义词)。
2. 查询时应用(推荐场景:同义词规则频繁更新)
  • 配置:仅在 search_analyzer 中绑定同义词过滤器,索引时使用基础分析器。
  • 效果:文档内容保持原始词项,搜索时搜索词会被扩展为同义词。
  • 优势:同义词规则更新无需重新索引文档。
  • 缺点:查询时需处理扩展,可能增加查询耗时(尤其当同义词数量大时)。
3. 混合应用(平衡方案)

同时在索引和查询阶段应用同义词过滤器,但需确保两者的同义词规则一致,避免索引词项与查询词项不匹配。例如:

"mappings": {"properties": {"content": {"type": "text","analyzer": "my_synonym_analyzer",       // 索引时扩展同义词"search_analyzer": "my_synonym_analyzer" // 查询时再次扩展同义词}}
}

四、验证同义词效果

通过 ES 的 _analyze API 验证分析器是否正确处理同义词:

示例(验证“美丽”的分词结果)

GET /my_index/_analyze
{"analyzer": "my_synonym_analyzer","text": "美丽"
}

预期输出(扩展模式):

{"tokens": [{ "token": "美丽", "start_offset": 0, "end_offset": 2 },{ "token": "漂亮", "start_offset": 0, "end_offset": 2 }  // 同义词被扩展]
}

预期输出(替换模式):

{"tokens": [{ "token": "美丽", "start_offset": 0, "end_offset": 2 }  // 仅保留替换后的词项]
}

五、动态更新同义词规则

若需动态更新同义词(如新增“好看”作为“美丽”的同义词),需执行以下步骤:

1. 更新同义词文件

修改 synonyms.txt 或远程文件,添加新规则:

美丽, 漂亮, 好看  // 扩展模式:三个词互为同义词
2. 刷新分析器(ES 8+ 支持)

通过 _indices/close_indices/open 重新加载分析器(需短暂关闭索引):

// 关闭索引
POST /my_index/_close// 打开索引(自动重新加载同义词文件)
POST /my_index/_open

注意:关闭索引会导致该索引不可用,生产环境建议使用 滚动升级(Rolling Upgrade)双索引切换 避免停机。

六、注意事项与优化

1. 性能影响
  • 扩展模式会增加词项数量(如一个词扩展为 5 个同义词),可能导致索引体积增大和查询耗时增加。
  • 替换模式可减少词项数量,但需谨慎选择基准词(如统一为“美丽”),避免丢失语义。
2. 同义词规则维护
  • 避免规则冲突(如“苹果”既指水果又指品牌),可通过 上下文感知同义词(需结合 context 过滤器,ES 8.7+ 支持):
    "my_synonym_filter": {"type": "synonym","synonyms": ["美丽, 漂亮 => #general",  // 通用上下文"苹果, 水果 => #fruit",     // 水果上下文"苹果, 手机 => #electronics" // 电子设备上下文]
    }
    
3. 中文分词器适配
  • 若使用中文分词器(如 IK、SmartCN),需确保同义词过滤器在分词器之后执行(避免分词结果与同义词规则不匹配)。例如:
    "analyzer": {"my_synonym_analyzer": {"tokenizer": "ik_max_word",  // 中文分词器"filter": ["my_synonym_filter"        // 分词后应用同义词过滤器]}
    }
    

总结

ES 中实现同义词映射的核心是通过 同义词过滤器 在分词阶段扩展或替换词项。关键步骤包括:

  1. 定义同义词规则(扩展或替换模式);
  2. 创建包含同义词过滤器的自定义分析器;
  3. 将分析器绑定到目标字段(索引和/或查询阶段);
  4. 验证分词效果并动态更新规则。

通过合理配置,可实现“美丽”和“漂亮”等同义词在搜索时的智能映射,提升搜索结果的相关性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/79937.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Web安全渗透测试基础知识之SQL注入篇

一、SQL注入基础理论 1.1 什么是SQL注入 SQL注入是一种常见的Web安全问题,攻击者通过在Web应用程序的输入字段中插入恶意的SQL语句,改变原本SQL查询的逻辑,实现非法获取数据、篡改数据、执行系统命令等操作。这种情况产生的根本原因在于应…

JVM方法区核心技术解析:从方法区到执行引擎

方法区 方法区的内部结构 在经典方法区设计中,主要存储以下核心数据内容: 一、类型信息 方法区维护的类型信息包含以下要素: 类全称标识 类名称(含完整包路径)直接父类的完全限定名(包含完整包路径&am…

【MyBatis插件】PageHelper 分页

前言 在开发 Web 应用时,我们经常需要处理海量数据的展示问题。例如,在一个电商平台上,商品列表可能有成千上万条数据。如果我们一次性将所有数据返回给前端,不仅会导致页面加载缓慢,还会对数据库造成巨大压力。为了解…

springboot+vue实现在线书店(图书商城)系统

今天教大家如何设计一个图书商城 , 基于目前主流的技术:前端vue,后端springboot。 同时还带来的项目的部署教程。 视频演示 在线书城 图片演示 一. 系统概述 商城是一款比较庞大的系统,需要有商品中心,库存中心,订单…

OPC UA + ABP vNext 企业级实战:高可用数据采集框架指南

🚀📊 OPC UA ABP vNext 企业级实战:高可用数据采集框架指南 🚀 📑 目录 🚀📊 OPC UA ABP vNext 企业级实战:高可用数据采集框架指南 🚀一、前言 🎯二、系统…

Oracle统计信息收集时的锁持有阶段

Oracle统计信息收集时的锁持有阶段 1 准备阶段(共享模式锁) 锁类型:对象级共享锁(S锁) 持续时间:通常1-5秒 主要操作: 验证对象存在性和权限检查统计信息首选项设置确定采样方法和并行度 监…

shell常用语法

一、shell变量 定义变量语法: 变量名值 # 等号两边不能有空格 示例: #!/bin/bash name"Alice" echo "Hello, $name!" # 使用变量使用变量-语法: 两种方式: 第一种:${变量名} 第二种&#x…

《教育退费那些事儿:从困境到破局》

《教育退费那些事儿:从困境到破局》 教育退费:不容忽视的热点问题 在当今社会,教育消费已成为家庭支出的重要组成部分。无论是 K12 阶段的学科辅导、艺术特长培训,还是成人的职业技能提升、学历继续教育,家长和学生们…

老字号焕新案例:天猫代运营如何让传统品牌年轻化破圈

老字号焕新案例:天猫代运营如何让传统品牌年轻化破圈 在消费升级与年轻化浪潮的冲击下,传统老字号品牌常面临“有历史无活力、有产品无流量”的困境。如何借助电商平台实现品牌焕新,成为其破局的关键。品融(PINKROON&#xff09…

高可靠低纹波国产4644电源芯片在工业设备的应用

摘要 随着工业自动化和智能化的飞速发展,工业设备对于电源芯片的性能和可靠性提出了前所未有的严格要求。电源芯片作为工业设备的核心供电组件,其性能直接影响到整个设备的运行效率和稳定性。本文以国科安芯的ASP4644四通道降压稳压器为例,通…

Vue组件-霓虹灯:技术解析与实现

Vue组件-霓虹灯:技术解析与实现 本文将详细解析如何使用Vue 3实现一个动态炫彩霓虹灯效果。 预览 概述 此Vue组件创建了一个由7个同心圆环组成的霓虹灯效果,每个圆环具有彩虹中的一种颜色(红、橙、黄、绿、蓝、靛、紫)。这些圆…

【实战教程】从零实现DeepSeek AI多专家协作系统 - Spring Boot+React打造AI专家团队协作平台

🚀 本项目是DeepSeek大模型应用系列的V3版本,基于V1和V2版本的功能进行全面升级,引入了多智能体协作机制! 系列教程推荐阅读顺序: 【V1版本】零基础搭建DeepSeek大模型聊天系统 - Spring BootReact完整开发指南【V2版本…

第8章-5 sql的执行顺序

上一篇:《第8章-4 查询性能优化2》,接着来了解查询的执行顺序,了解顺序对于优化会有帮助。 1,sql编写顺序 select distinct 查询字段 from 表名 JOIN 表名 ON 连接条件 where 查询条件 group by 分组字段 having 分组后…

设计模式学习整理

目录 UML类图 设计模式六大原则 1.单一职责原则 2.里氏替换原则 3.依赖倒置原则 4.接口隔离原则 5.迪米特法则(最少知道原则) 6.开(放封)闭原则 设计模式分类 1.创建型模式 2.结构型模式 4.行为型模式 一、工厂模式(factory——简单工厂模式和抽象工厂模式) 1.1、…

Linux干货(二)

前言 从B站黑马程序员Linux课程摘选的学习干货,新手友好!若有侵权,会第一时间处理。 目录 前言 1.cd pwd命令 1.cd命令的作用 2.pwd命令的作用 2.相对路径绝对路径和特殊路径符 1.相对路径和绝对路径 1.绝对路径 2.相对路径 2.特殊…

ngx_http_keyval_module动态键值管理

一、模块安装与验证 检查模块是否可用 nginx -V 2>&1 | grep --color -o ngx_http_keyval_module如果看到 ngx_http_keyval_module,说明模块已编译进 NGINX。 若未找到,请联系你的 NGINX 供应商,获取商业版或重新编译并启用该模块&am…

upload-labs通关笔记-第4关 文件上传之.htacess绕过

目录 一、.htacess 二、代码审计 三、php ts版本安装 1、下载ts版本php 2、放入到phpstudy指定文件夹中 3、修改php配置文件 4、修改php.ini文件 5、修改httpd.conf文件 (1)定位文件 (2)修改文件 6、重启小皮 7、切换…

LeetCode 88. 合并两个有序数组 | Python 最简写法 + 实战注释

在日常刷题和面试中,「合并两个有序数组」是一个经典基础题。虽然属于简单难度,但它非常考察你的数组操作技巧和代码优化能力。本篇文章将带你从基础解法入手,进阶到最简洁的三元表达式写法,理解每一行代码背后的逻辑。 📌 题目描述 给你两个按 非递减顺序 排列的整数数组…

Kafka进阶指南:从原理到实战

目录 一、Kafka 基础回顾 二、生产者进阶 2.1 数据生产流程深度解析 2.2 关键配置参数详解 2.3 序列化与自定义序列化器 三、消费者进阶 3.1 消费方式与原理 3.2 分区分配策略 3.2.1 Range(范围)策略 3.2.2 Round - Robin(轮询&…

Lightpanda开源浏览器:专为 AI 和自动化而设计的无界面浏览器

​一、软件介绍 文末提供程序和源码下载 Lightpanda开源浏览器:专为 AI 和自动化而设计的无界面浏览器; Javascript execution Javascript 执行Support of Web APIs (partial, WIP)支持 Web API(部分、WIP)Compatible with Pla…