sensitive-word:一个简单易用的敏感词过滤框架

news/2025/10/8 22:58:58/文章来源:https://www.cnblogs.com/makemylife/p/19130244

这篇文章,分享一个开源项目:sensitive-word

Github 地址:https://github.com/houbb/sensitive-word

sensitive-word 是一个功能强大的 Java 敏感词过滤框架,它不仅提供了基础的敏感词检测功能,还支持单词标签分类分级、繁简体互换、全角半角互换、汉字转拼音、模糊搜索等高级特性。

它的核心特性如下:

  • 🚀 高性能: 基于 DFA 算法,匹配效率极高
  • 🏷️ 标签分类: 支持敏感词分类分级管理
  • 🔄 字符处理: 支持繁简体、全角半角互换
  • 🎯 模糊搜索: 支持拼音、形似字等模糊匹配
  • 📦 开箱即用: 简单配置即可快速集成

1 基础使用

<dependency><groupId>com.github.houbb</groupId><artifactId>sensitive-word</artifactId><version>0.29.2</version>
</dependency>

SensitiveWordHelper 作为敏感词的工具类,核心方法如下:

示例代码:

import com.github.houbb.sensitive.word.core.SensitiveWordHelper;public class BasicExample {public static void main(String[] args) {String text = "这是一个包含赌博和毒品等不良内容的测试文本";// 检测是否包含敏感词boolean hasSensitive = SensitiveWordHelper.contains(text);System.out.println("是否包含敏感词: " + hasSensitive);// 查找所有敏感词List<String> sensitiveWords = SensitiveWordHelper.findAll(text);System.out.println("发现的敏感词: " + sensitiveWords);// 替换敏感词String cleanedText = SensitiveWordHelper.replace(text);System.out.println("清洗后文本: " + cleanedText);// 使用指定字符替换String customReplaced = SensitiveWordHelper.replace(text, '*');System.out.println("自定义替换: " + customReplaced);}
}

执行结果:

2 特殊处理

sensitive-word 为了尽可能的提升敏感词命中率,针对各种各种情况做了处理。

1、忽略大小写

final String text = "fuCK the bad words.";String word = SensitiveWordHelper.findFirst(text);
Assert.assertEquals("fuCK", word);

2、忽略圆角半角

final String text = "fuck the bad words.";String word = SensitiveWordHelper.findFirst(text);
Assert.assertEquals("fuck", word);

3、忽略数字的写法

final String text = "这个是我的微信:9⓿二肆⁹₈③⑸⒋➃㈤㊄";List<String> wordList = SensitiveWordBs.newInstance().enableNumCheck(true).init().findAll(text);
Assert.assertEquals("[9⓿二肆⁹₈③⑸⒋➃㈤㊄]", wordList.toString());

4、忽略繁简体

final String text = "我爱我的祖国和五星紅旗。";List<String> wordList = SensitiveWordHelper.findAll(text);
Assert.assertEquals("[五星紅旗]", wordList.toString());

5、忽略英文的书写格式

final String text = "Ⓕⓤc⒦ the bad words";List<String> wordList = SensitiveWordHelper.findAll(text);
Assert.assertEquals("[Ⓕⓤc⒦]", wordList.toString());

6、忽略重复词

final String text = "ⒻⒻⒻfⓤuⓤ⒰cⓒ⒦ the bad words";List<String> wordList = SensitiveWordBs.newInstance().ignoreRepeat(true).init().findAll(text);
Assert.assertEquals("[ⒻⒻⒻfⓤuⓤ⒰cⓒ⒦]", wordList.toString());

3 更多检测策略

sensitive-word 支持数字、邮箱、URL 、ipv4 多种检测策略。

示例代码:

public class SensitiveWordQuickDemo {public static void main(String[] args) {// 邮箱检测String text1 = "楼主好人,邮箱 sensitiveword@xx.com";List<String> emailWords = SensitiveWordBs.newInstance().enableEmailCheck(true).init().findAll(text1);System.out.println("邮箱检测: " + emailWords);// 数字检测String text2 = "你懂得:12345678";List<String> numWords = SensitiveWordBs.newInstance().enableNumCheck(true).init().findAll(text2);System.out.println("数字检测: " + numWords);// URL 检测String text3 = "点击链接 https://www.baidu.com 查看答案,当然也可以是 baidu.com、www.baidu.com";List<String> urlWords = SensitiveWordBs.newInstance().enableUrlCheck(true).wordCheckUrl(WordChecks.urlNoPrefix()).init().findAll(text3);System.out.println("URL 检测: " + urlWords);// IPv4 检测String text4 = "个人网站,如果网址打不开可以访问 127.0.0.1。";List<String> ipWords = SensitiveWordBs.newInstance().enableIpv4Check(true).init().findAll(text4);System.out.println("IPv4 检测: " + ipWords);}}

显示结果:

4 优雅 API

为了让使用更加优雅,统一使用 fluent-api 的方式定义。

用户可以使用 SensitiveWordBs 进行如下定义:

注意:配置后,要使用我们新定义的 SensitiveWordBs 的对象,而不是以前的工具方法。工具方法配置都是默认的。

public class AdvancedExample {public static void main(String[] args) {SensitiveWordBs wordBs = SensitiveWordBs.newInstance().ignoreCase(true).ignoreWidth(true).ignoreNumStyle(true).ignoreChineseStyle(true).ignoreEnglishStyle(true).ignoreRepeat(false).enableNumCheck(false).enableEmailCheck(false).enableUrlCheck(false).enableIpv4Check(false).enableWordCheck(true).wordFailFast(true).wordCheckNum(WordChecks.num()).wordCheckEmail(WordChecks.email()).wordCheckUrl(WordChecks.url()).wordCheckIpv4(WordChecks.ipv4()).wordCheckWord(WordChecks.word()).numCheckLen(8).wordTag(WordTags.none()).charIgnore(SensitiveWordCharIgnores.defaults()).wordResultCondition(WordResultConditions.alwaysTrue()).init();final String text = "五星红旗迎风飘扬,毛主席的画像屹立在天安门前。";System.out.println(wordBs.contains(text));System.out.println(wordBs.findFirst(text));}}

5 定义词库

01 新增删除敏感词

初始化之后,sensitive-word 支持对单个词的新增/删除。

  • addWord(word) 新增敏感词,支持单个词/集合

  • removeWord(word) 删除敏感词,支持单个词/集合

示例代码:

final String text = "测试一下新增敏感词,验证一下删除和新增对不对";SensitiveWordBs sensitiveWordBs =
SensitiveWordBs.newInstance().wordAllow(WordAllows.empty()).wordDeny(WordDenys.empty()).init();// 当前
Assert.assertEquals("[]", sensitiveWordBs.findAll(text).toString());// 新增单个
sensitiveWordBs.addWord("测试");
sensitiveWordBs.addWord("新增");
Assert.assertEquals("[测试, 新增, 新增]", sensitiveWordBs.findAll(text).toString());// 删除单个
sensitiveWordBs.removeWord("新增");
Assert.assertEquals("[测试]", sensitiveWordBs.findAll(text).toString());
sensitiveWordBs.removeWord("测试");
Assert.assertEquals("[]", sensitiveWordBs.findAll(text).toString());// 新增集合
sensitiveWordBs.addWord(Arrays.asList("新增", "测试"));
Assert.assertEquals("[测试, 新增, 新增]", sensitiveWordBs.findAll(text).toString());
// 删除集合
sensitiveWordBs.removeWord(Arrays.asList("新增", "测试"));
Assert.assertEquals("[]", sensitiveWordBs.findAll(text).toString());// 新增数组
sensitiveWordBs.addWord("新增", "测试");
Assert.assertEquals("[测试, 新增, 新增]", sensitiveWordBs.findAll(text).toString());
// 删除集合
sensitiveWordBs.removeWord("新增", "测试");
Assert.assertEquals("[]", sensitiveWordBs.findAll(text).toString());

02 自定义词库来源(数据库 / 接口)

我们可以实现接口 IWordDeny 来扩展,例如从数据库取敏感词,实现自定义词库。

public class CustomDictionaryExample {public static void main(String[] args) {SensitiveWordBs wordBs = SensitiveWordBs.newInstance().wordDeny(new IWordDeny() {@Overridepublic List<String> deny() {// 这里可以从数据库查询return Arrays.asList("勇哥", "敏感词A", "敏感词B");}}).init();System.out.println(wordBs.findAll("这是一个敏感词A 的测试"));}}

6 Spring 整合

当我们需要在 SpringBoot 项目中使用敏感词过滤文本时,可以定义敏感词引导类。

示例见如下代码:

@Configuration
public class SpringSensitiveWordConfig {@Autowiredprivate MyDdWordAllow myDdWordAllow;@Autowiredprivate MyDdWordDeny myDdWordDeny;/*** 初始化引导类* @return 初始化引导类* @since 1.0.0*/@Beanpublic SensitiveWordBs sensitiveWordBs() {SensitiveWordBs sensitiveWordBs = SensitiveWordBs.newInstance().wordAllow(WordAllows.chains(WordAllows.defaults(), myDdWordAllow)).wordDeny(myDdWordDeny)// 各种其他配置.init();return sensitiveWordBs;}}

7 敏感词控制台

sensitive-word-admin 是和 sensitive-word 配套使用的控制台。

  • 前端采用Vue、Element UI。
  • 后端采用Spring Boot、Spring Security、Redis & Jwt。
  • 权限认证使用Jwt,支持多终端认证系统。
  • 支持加载动态权限菜单,多方式轻松权限控制。
  • 高效率开发,使用代码生成器可以一键生成前后端代码。

参考文章:

https://cloud.tencent.com/developer/news/1311331

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/932032.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

回归学习——包机制

回归学习 包机制 包的本质就是文件夹,用来区别类名的命名空间。一个文件在写的时候要把包写在最前面,一般利用公司倒置作为包名,为了能够使用一个包的成员,我们需要在Java程序中明确导入该包,方式为使用‘import语…

哈尔滨中小企业网站制作长沙知名网站

无论是前面学习的序列式容器,还是关联式容器,要想实现遍历操作,就必须要用到该类型容器的迭代器。当然,map 容器也不例外。C++ STL 标准库为 map 容器配备的是双向迭代器(bidirectional iterator)。这意味着,map 容器迭代器只能进行 ++p、p++、--p、p--、*p 操作,并且迭…

网站建设职责网站源码大全

一、需求 用户输入四个季度的数据&#xff0c;根据数据生成柱形统计图&#xff0c;浏览器预览效果如下 二、完整代码 <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><meta name"viewport" content&q…

wordpress动漫主题秦皇岛seo排名

二叉树相关推荐 107.二叉树的层次遍历II199.二叉树的右视图637.二叉树的层平均值429.N叉树的层序遍历515.在每个树行中找最大值116.填充每个节点的下一个右侧节点指针117.填充每个节点的下一个右侧节点指针II总结 107.二叉树的层次遍历II 切片本质是一个结构体&#xff0c;包含…

vue 组件的常见8种通信方式

1、通过props传递‌,emit触发自定义事件: 父传子:子组件中通过props接收父组件传递的数据。 ‌子传父:子组件通过emit触发一个事件,父组件监听这个事件来接收数据。 vue2:通过props和$emit vue3:script中setup,…

技能训练企业网站建设可行性分析企业网站建设 百度文库

文章目录 参考环境常量数组不可变性版本限制 constdefine()构造大小写不敏感的常量$case_insensitive 参数PHP7.3PHP8 若 define() 在不支持常量数组的版本中运行 参考 项目描述搜索引擎Bing、GoogleAI 大模型文心一言、通义千问、讯飞星火认知大模型、ChatGPTPHP 手册PHP Man…

251008

251008美好的一天从现在开始

vue一键安装

vue一键安装 Microsoft Windows [版本 10.0.26100.4946] (c) Microsoft Corporation。保留所有权利。F:\vue_flask_project\vue_flask_project_one\vue>npm install --global vue-cli npm warn deprecated inflight…

佛山网站建设找哪家wordpress 中文版下载

内联式css样式&#xff0c;直接写在现有的HTML标签中 CSS样式可以写在哪些地方呢&#xff1f;从CSS 样式代码插入的形式来看基本可以分为以下3种&#xff1a;内联式、嵌入式和外部式三种。这一小节先来讲解内联式。 内联式css样式表就是把css代码直接写在现有的HTML标签中&am…

权威的网站建设排行榜男科医院哪家正规医院

模拟伪造请求 方法一&#xff1a;打断点模拟HTTP请求 1、浏览器页面填好内容后&#xff08;不要操作提交&#xff09;&#xff0c;打开fiddler&#xff0c;设置请求前断点&#xff0c;点击菜单fiddler,”Rules”\”Automatic Breakpoints”\”Before Requests” 2、在页面上点…

做网站卖电脑oss cdn wordpress

目录 一、Vite概述 二、Vite构建Vue3工程化项目 三、ViteVue3项目目录结构 四、ViteVue3项目组件&#xff08;SFC入门&#xff09; 五、ViteVue3样式导入方式 六、ViteVue3响应式数据和setup语法糖 一、Vite概述 Vite是一种新型前端构建工具,能够显著提升前端开发体验;Vite结合…

网站页面设计要求wordpress快速登陆插件

动机(Motivate)&#xff1a; 在软件构建过程中&#xff0c;一个请求可能被多个对象处理&#xff0c;但是每个请求在运行时只能有一个接受者&#xff0c;如果显示指定&#xff0c;将必不可少地带来请求发送者与接受者的紧耦合。 如何使请求的发送者不需要指定具体的接受…

如何使用 ManySpeech 调用 SenseVoiceSmall 模型

一、模型与组件简介SenseVoice 模型多语言音频理解开源模型,支持语音识别、语种识别、情感识别等功能,适用于中、粤、英、日、韩等语言。 ManySpeech.AliParaformerAsrC# 语音识别推理库,支持 paraformer-large、pa…

北京免费发布企业信息网站建设网站哪家强

vmware与windows共享文件夹 宗旨&#xff1a;技术的学习是有限的&#xff0c;分享的精神是无限的。 虚拟工具安装好之后&#xff0c;我们就可以在windows和linux设置一个共享目录了,继续看图干活。 设置好共享目录以后&#xff0c;打开终端输入以下命令&#xff0c;就可以再…

维基框架 (Wiki Framework) v1.1.2 | 企业级微服务开发框架

Release Notes 版本修复日志【修复】修复HTTPS请求参数ContentType创建错误问题; 【修复】修复用户接口类 IUserDetailsService 被删除问题; 【修复】修复Spring Boot 全局响应处理增加对返回字符串兼容; 【修复】修…

宁夏公路建设局网站wordpress 中国风

Dubbo 支持哪些协议&#xff0c;每种协议的应用场景&#xff0c;优缺点&#xff1f; • dubbo&#xff1a; 单一长连接和 NIO 异步通讯&#xff0c;适合大并发小数据量的服务调用&#xff0c;以及消费者远大于提供者。传输协议 TCP&#xff0c;异步&#xff0c;Hessian 序列化…

如何将 iOS 性能调试融入日常创建流程?构建“默认监控机制”的实战经验(含 KeyMob 程序搭配)

如何将 iOS 性能调试融入日常创建流程?构建“默认监控机制”的实战经验(含 KeyMob 程序搭配)2025-10-08 22:32 tlnshuju 阅读(0) 评论(0) 收藏 举报pre { white-space: pre !important; word-wrap: normal !imp…

国庆假期总结

🎉国庆总览🎉 学习🎯被学习充满的假期真是太充实(无聊)了机器学习。学习了吴恩达的机器学习,看了一百多集,实践做了小部分,我感觉到只学习到了皮毛,难的。其实只是选修课而已在这个学期,但是我想这是专业…

wordpress双语网站响应式网站开发实例

/任务2&#xff1a;if else 语句 编写控制台java程序&#xff0c;模拟银行取款的功能。 使用Scanner对象相关方法从控制台接收用户输入的银行卡账号和密码&#xff0c; 与预先定义好的银行卡账号密码相同则输出用户名密码正确&#xff0c;可以取款&#xff1b;如果账号或者密码…

普宁17网站一起做淘宝wordpress 评论 正在提交_请稍后

耳机自从手机出世之后就一直伴随着我们&#xff0c;作为手机的最佳搭档被我们使用&#xff0c;像现如今流行的蓝牙耳机我们就经常使用&#xff0c;大学生也是差不多每天都用得着&#xff0c;听歌、散步、玩游戏、看剧等哪都看得到它的身影&#xff0c;当然蓝牙耳机价格也有高低…