Python正则表达式处理中日韩字符过滤全解析

Python正则表达式处理中日韩字符过滤全解析

一、核心原理:Unicode字符范围定位

中日韩字符在Unicode中的分布:

  • 中文:\u4e00-\u9fff(基本区) + \u3400-\u4dbf(扩展A区) + \U00020000-\U0002a6df(扩展B区)
  • 日文:
    • 平假名:\u3040-\u309f
    • 片假名:\u30a0-\u30ff
    • 汉字:\u4e00-\u9fbf(与中文重叠)
  • 韩文:\uac00-\ud7a3(谚文音节) + \u1100-\u11ff(古韩文字母)

二、基础过滤模板

1. 简单替换示例

替换日文韩文,保留中文

import re text = "混合文本:Hello 你好 こんにちは 안녕하세요"
pattern = r"[\u3040-\u30ff\uac00-\ud7a3]"
result = re.sub(pattern, "[CJK]", text, flags=re.UNICODE)
print(result)  # 混合文本:Hello 你好 [CJK][CJK][CJK][CJK][CJK] [CJK][CJK][CJK][CJK][CJK]

2. 保留空格优化版

# 使用正向前瞻断言保留空格
pattern = r"([\u3040-\u30ff\uac00-\ud7a3]+|[\u30a0-\u30ff])"
result = re.sub(pattern, "[CJK]", text, flags=re.UNICODE)print(result)  #  混合文本:Hello 你好 [CJK] [CJK]

三、工业级解决方案

1. 多层级过滤系统

def cjk_filter(text, replace_char="", mode="strict"):cjk_ranges = {"basic": r"[\u3040-\u30ff\uac00-\ud7a3]","extended": r"[\u3400-\u4dbf\U00020000-\U0002a6df\u3040-\u30ff\uac00-\ud7a3\u1100-\u11ff]"}pattern = re.compile(cjk_ranges[mode], flags=re.UNICODE)return pattern.sub(replace_char, text)# 使用示例
text = "2025新版日汉字:峠 働 鱪 ♨"
print(cjk_filter(text, mode="extended"))  # 输出:2025新版日汉字:  ♨ 

2. 上下文感知过滤

# 保留英文与CJK混合词中的字母
def smart_filter(text):return re.sub(r"(?<![a-zA-Z])[\u3040-\u30ff\uac00-\ud7a3]+(?![a-zA-Z])","",text)text = "Python3.12新增了「こんにちは 」功能"
print(smart_filter(text))  # 输出:Python3.12新增了「」功能

四、性能优化方案

1. 预编译正则表达式

# 百万级文本处理提速方案
class CJKProcessor:def __init__(self):self.pattern = re.compile(r"[\u3040-\u30ff\uac00-\ud7a3]+",flags=re.UNICODE)def process(self, text):return self.pattern.sub("[CJK]", text)processor = CJKProcessor()
print(processor.process("批量处理测试:こんにちは"))  # 输出:批量处理测试:[CJK]

五、特殊场景处理

1. 带注音字符处理

# 过滤日语振假名(如:漢字󠄀)
text = "振り仮名付き: 漢󠄁字"
result = re.sub(r"[\u3040-\u30ff](\uDB40[\uDC00-\uDFFF])?", "", text 
)
print(result)  # 输出:振り仮名付き: 

2. 异体字筛选

# 保留标准中文,过滤日式汉字
def filter_variants(text):jp_kanji = r"[亜囲亙悪圧]"return re.sub(rf"({jp_kanji}|[\u3040-\u30ff])","",text)text = "日本汉字:亜 圧 vs 中文汉字:亚 压"
print(filter_variants(text))  # 输出:日本汉字:  vs 中文汉字:亚 压

六、可视化调试方案

1. 匹配高亮显示


def debug_cjk(text):highlighted = re.sub(r"([\u4e00-\u9fff\u3040-\u30ff\uac00-\ud7a3])",r"\033[31m\1\033[0m",text)print(highlighted)debug_cjk("调试示例:안녕하세요 こんにちは")
# 终端显示:调试示例:[红色]안녕하세요 [红色]こんにちは 

七、常见问题排查

1. 遗漏字符问题

  • 现象:部分韩文字符未被过滤
  • 解决方案:扩展韩文范围至\uac00-\ud7a3(现代韩文) + \u1100-\u11ff(古韩文)

2. 性能瓶颈分析

# 测试正则表达式性能 
import timeit 
setup = '''
import re 
text = "测试" * 100000 
pattern = re.compile(r'[\u4e00-\u9fff]')
'''
print(timeit.timeit('pattern.sub("", text)', setup, number=100))
# 输出:0.87秒(1亿次替换/分钟)

通过这种系统化的过滤方案,可应对以下场景:

  • 🔍 国际化网站的敏感词过滤
  • 📊 多语言混合数据的清洗
  • 🔒 用户输入的安全审查
  • 📚 古籍文献的数字化处理

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/70268.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于WOA鲸鱼优化的WSN网络最优节点部署算法matlab仿真

目录 1.程序功能描述 2.测试软件版本以及运行结果展示 3.核心程序 4.本算法原理 5.完整程序 1.程序功能描述 鲸鱼优化算法&#xff08;WOA&#xff09;是一种模拟座头鲸捕食行为的元启发式优化算法。其主要原理基于座头鲸独特的 “气泡网” 捕食策略&#xff0c;通过数学模…

【数据分析】3 数据分析成长之路

职业发展路径&#xff1a; 向上发展&#xff08;技术方向&#xff09;&#xff1a;可以详细说明成为数据科学家或专家所需的具体技能和步骤&#xff0c;包括学习的算法、工具等。向下发展&#xff08;业务方向&#xff09;&#xff1a;可以探讨结合业务知识的具体领域&#xff…

excel导入Mysql中时间格式异常

问题描述&#xff1a; 当使用xls/xlsx/csv导入mysql中&#xff0c;如果列是时间类型比如excel表中显示2024/02/20 09:18:00&#xff0c;导入后时间可能就会变成1900-01-01 09:18:00这样。 问题原因&#xff1a; 这是由于excel表中和数据库中的时间类型不匹配导致。 问题解决…

async checkpointing

Reducing Model Checkpointing Times by Over 10x with PyTorch Distributed Asynchronous Checkpointing | PyTorch 最初来源&#xff1a;IBM Research 核心思想&#xff1a;GPU->CPU&#xff0c;用的是blocking&#xff1b;CPU->Disk&#xff0c;用的是异步不阻塞训练…

Nginx稳定版最新1.26.2源码包安装【保姆级教学】

Nginx安装及配置 开源Nginx官网地址(https://nginx.org) Nginx源码包下载地址(https://nginx.org/en/download.html) Mainline version 主线版本 Stable version 稳定版本 Legacy versions 陈旧版本 下载Nginx源码文件 curl -O https://nginx.org/download/nginx-1.26.2.t…

在ubuntu上用Python的openpyxl模块操作Excel的案例

文章目录 安装模块读取Excel数据库取数匹配数据和更新Excel数据 在Ubuntu系统的环境下基本职能借助Python的openpyxl模块实现对Excel数据的操作。 安装模块 本次需要用到的模块需要提前安装(如果没有的话) pip3 install openpyxl pip3 install pymysql在操作前&#xff0c;需…

GeoHD - 一种用于智慧城市热点探测的Python工具箱

GeoHD - 一种用于智慧城市热点探测的Python工具箱 详细原理请参考&#xff1a;Yan, Y., Quan, W., Wang, H., 2024. A data‐driven adaptive geospatial hotspot detection approach in smart cities. Trans. GIS tgis.13137. 代码下载&#xff1a;下载 1. 简介 在城市数据…

16 中介者(Mediator)模式

中介者模式 1.1 分类 &#xff08;对象&#xff09;行为型 1.2 提出问题 实现一个机场的起飞管理系统&#xff0c;如果由驾驶员们讨论谁先飞&#xff0c;后果可能是灾难性的。 1.3 解决方案 用一个中介对象来封装一系列的对象交互。中介者使各对象不需要显式地相互引用&a…

最薄的机身,游最深的海

经济全球化的潮流&#xff0c;势不可挡。 “技术、通讯和全球化&#xff0c;正在消除传统的地理和经济边界&#xff0c;使竞争环境趋于平等。”《世界是平的》作者托马斯弗里德曼预言的"扁平化竞争"正加速演进。 在高端智能手机战场&#xff0c;一场由中国企业主导…

【HarmonyOS Next】鸿蒙监听手机按键

【HarmonyOS Next】鸿蒙监听手机按键 一、前言 应用开发中我们会遇到监听用户实体按键&#xff0c;或者扩展按键的需求。亦或者是在某些场景下&#xff0c;禁止用户按下某些按键的业务需求。 这两种需求&#xff0c;鸿蒙都提供了对应的监听事件进行处理。 onKeyEvent 默认的…

IC设计版图中GDS2文件格式详解

版图中GDS2文件格式详解 目录 什么是GDS2文件&#xff1f;GDS2文件的历史与发展GDS2文件的结构解析GDS2文件的核心元素GDS2 vs. OASIS: 核心差异如何生成与查看GDS2文件&#xff1f;GDS2文件的局限性应用场景总结 什么是GDS2文件&#xff1f; GDS2&#xff08;Graphic Data …

KMP算法:字符串匹配的智慧跳跃

文章目录 起因&#xff1a;暴力法的致命缺陷暴力搜索的局限性 KMP核心思想&#xff1a;避免重复理解前缀表&#xff08;PMT&#xff09;不匹配时的回退机制代码&#xff1a;高效字符串匹配补充&#xff1a;next表和PMT表 暴力法 vs KMP总结&#xff1a;KMP 是如何改变游戏规则的…

上位机知识篇---setuptools

文章目录 前言简介一、核心功能1.依赖管理自动安装依赖版本约束额外依赖组命令行工具插件系统 2.开发模式安装3.资源文件管理4.Egg 分发&#xff08;已逐渐被 Wheel 取代&#xff09;5.命名空间包 二、基础用法1. 项目结构示例2. 配置文件 setup.cfg3. setup.py 最小化示例&…

蓝桥杯学习大纲

&#xff08;致酷德与热爱算法、编程的小伙伴们&#xff09; 在查阅了相当多的资料后&#xff0c;发现没有那篇博客、文章很符合我们备战蓝桥杯的学习路径。所以&#xff0c;干脆自己整理一篇&#xff0c;欢迎大家补充&#xff01; 一、蓝桥必备高频考点 我们以此为重点学习…

Go 错误处理与调试:面向对象的入门教程

Go 错误处理与调试&#xff1a;面向对象的入门教程 Go 语言因其简洁、高效和易于并发编程的特性&#xff0c;逐渐成为后端开发的主流语言之一。错误处理是任何编程语言中非常重要的一部分&#xff0c;尤其是在 Go 语言中&#xff0c;Go 提供了一种不同于传统异常处理机制的错误…

Linux探秘坊-------4.进度条小程序

1.缓冲区 #include <stdio.h> int main() {printf("hello bite!");sleep(2);return 0; }执行此代码后&#xff0c;会 先停顿两秒&#xff0c;再打印出hello bite&#xff0c;但是明明打印在sleep前面&#xff0c;为什么会后打印呢&#xff1f; 因为&#xff…

基于Python的Diango旅游数据分析推荐系统设计与实现+毕业论文(15000字)

基于Python的Diango旅游数据分析推荐系系统设计与实现毕业论文指导搭建视频&#xff0c;带爬虫 配套论文1w5字 可定制到某个省份&#xff0c;加40 基于用户的协同过滤算法 有后台管理 2w多数据集 可配套指导搭建视频&#xff0c;加20 旅游数据分析推荐系统采用了Python语…

Scrapy:DownloaderAwarePriorityQueue队列设计详解

DownloaderAwarePriorityQueue 学习笔记 1. 简介 DownloaderAwarePriorityQueue 是 Scrapy 中一个高级的优先级队列实现&#xff0c;它不仅考虑请求的优先级&#xff0c;还会考虑下载器的负载情况。这个队列为每个域名&#xff08;slot&#xff09;维护独立的优先级队列&#…

dify-AI 私有部署可修改前端页面

dify文档 官方文档&#xff1a;欢迎使用 Dify | Dify 源码&#xff1a;https://github.com/langgenius/dify.git 安装docker 官网&#xff1a;https://www.docker.com/ 部署服务到docker cd dify cd docker cp .env.example .env docker compose up -d查看效果 http://localh…

PHP基础部分

但凡是和输入、写入相关的一定要预防别人植入恶意代码! HTML部分 语句格式 <br> <hr> 分割符 <p>插入一行 按住shift 输入! 然后按回车可快速输入html代码(VsCode需要先安装live server插件) html:<h1>标题 数字越大越往后</h1> <p…