FST ITN-ZH在政务系统中的应用：公文标准化处理方案

1. 引言

1.1 政务场景下的文本标准化需求

在政府机关日常办公中，大量非结构化文本数据以口语化、传统书写方式存在。例如，“二零零八年八月八日”、“一百万元”、“京A一二三四五”等表达广泛出现在会议纪要、通知文件、审批材料中。这类表述虽符合中文习惯，但不利于信息提取、数据归档与系统间交互。

随着电子政务系统的推进，公文自动化处理成为提升行政效率的关键环节。而逆文本标准化（Inverse Text Normalization, ITN）技术正是打通“人类可读”到“机器可解析”之间鸿沟的核心工具。

FST ITN-ZH 是基于有限状态转导器（Finite State Transducer）构建的中文逆文本标准化模型，能够将自然语言中的数字、日期、时间、货币等表达统一转换为标准格式。通过将其集成至政务系统前端处理模块，可实现对原始输入内容的自动清洗与规范化。

1.2 方案背景与价值定位

本文介绍的是由开发者“科哥”完成的FST ITN-ZH WebUI二次开发版本在政务文书预处理中的落地实践。该版本不仅封装了原始ITN能力，还提供了图形化操作界面和批量处理功能，极大降低了基层工作人员的技术使用门槛。

本方案的核心价值包括：

提升录入效率：减少人工校正和格式调整时间
增强数据一致性：确保所有文档遵循统一数字表达规范
支持后续分析：为结构化检索、智能摘要、OCR后处理提供高质量输入
兼容国产环境部署：支持本地服务器运行，满足政务信息安全要求

2. 系统架构与部署方式

2.1 整体架构设计

本系统采用轻量级前后端分离架构，适用于政务内网独立部署场景：

[用户浏览器] ↓ (HTTP) [Gradio WebUI] ←→ [FST ITN-ZH 核心引擎] ↓ [本地文件存储]

前端层：基于 Gradio 框架构建的可视化界面，支持文本输入、示例填充、结果复制与文件保存
逻辑层：调用 FST ITN-ZH 的 Python 接口执行实际转换任务
持久化层：转换结果可选保存至服务器指定目录，带时间戳命名便于追溯

所有组件均运行于单台 Linux 服务器，无需联网依赖，保障敏感数据不出域。

2.2 部署与启动流程

系统已预配置完整运行环境，部署步骤如下：

将项目包上传至目标服务器/root/itn-webui目录
赋予脚本执行权限：bash chmod +x /root/run.sh
启动服务：bash /bin/bash /root/run.sh

说明：run.sh脚本内部启动 Python 服务并监听7860端口，可通过防火墙策略控制访问范围。

2.3 运行界面截图

如图所示，界面采用紫蓝渐变标题栏，清晰划分功能区域，包含标签页切换、输入输出框、快捷示例按钮及操作控件，整体布局简洁直观。

3. 核心功能详解

3.1 单文本转换功能

功能路径

点击「📝 文本转换」标签页，进入单条文本处理模式。

使用流程

在左侧输入框中键入待转换文本
点击「开始转换」按钮
右侧输出框即时显示标准化结果

示例演示

输入	输出
二零零八年八月八日早上八点半	2008年08月08日 8:30a.m.
一点二五元	¥1.25
六百八十公里	680km

此功能适用于零散信息录入、临时查询或校验个别字段准确性。

3.2 批量文件处理能力

应用场景

当需处理数百份历史档案、年度报表或群众来信时，手动逐条输入效率低下。此时应启用「📦 批量转换」功能。

实现步骤

准备.txt文件，每行一条原始文本二零一九年九月十二日一百二十三早上八点半一点二五元
点击「上传文件」选择该文件
点击「批量转换」触发处理
完成后点击「下载结果」获取标准化后的文本文件

工程优势

支持 UTF-8 编码中文文本
自动忽略空行与非法字符
输出文件保留原顺序，便于对照核查

该功能特别适合用于档案数字化项目中的集中清洗阶段。

3.3 快速示例与交互优化

页面底部提供一键填充按钮组，涵盖常见语义类型：

按钮	填充内容
`[日期]`	二零零八年八月八日
`[时间]`	早上八点半
`[数字]`	一百二十三
`[货币]`	一点二五元
`[分数]`	五分之一
`[度量]`	二十五千克
`[数学]`	负二
`[车牌]`	京A一二三四五
`[长文本]`	二零一九年九月十二日的晚上...

这些示例既可用于新用户快速上手，也可作为测试用例验证系统稳定性。

4. 高级配置与参数调优

4.1 转换独立数字开关

控制是否将孤立出现的中文数字转为阿拉伯数字。

开启效果：幸运一百→幸运100
关闭效果：幸运一百→幸运一百

建议设置：在正式公文中建议开启，保证数值统一性；若涉及文学性描述（如口号、标语），可临时关闭。

4.2 单个数字转换控制

决定零到九是否被替换。

开启效果：零和九→0和9
关闭效果：零和九→零和九

适用场景：对于强调读音一致性的语音识别后处理任务，建议开启；否则保持默认即可。

4.3 “万”单位完全展开选项

影响“万”级数量的表示形式：

开启效果：六百万→6000000
关闭效果：六百万→600万

推荐策略： - 数据统计类文档建议开启，便于后续计算 - 对外发布文件建议关闭，更符合公众阅读习惯

5. 支持的标准化类型全览

5.1 日期格式统一

将汉字年月日转换为标准数字格式，补全前导零。

输入: 二零零八年八月八日 输出: 2008年08月08日 输入: 二零一九年九月十二日 输出: 2019年09月12日

5.2 时间表达归一

区分上午/下午，并转换为12小时制英文标记。

输入: 早上八点半 输出: 8:30a.m. 输入: 下午三点十五分 输出: 3:15p.m.

5.3 数值与货币转换

支持整数、小数、大写金额等多种形式。

输入: 一百二十三 输出: 123 输入: 一点二五元 输出: ¥1.25 输入: 一百美元 输出: $100

5.4 分数与度量单位

自动识别常见比例关系与物理量。

输入: 五分之一 输出: 1/5 输入: 二十五千克 输出: 25kg

5.5 数学符号与特殊编号

处理负数、正数及车牌号等专有格式。

输入: 负二 输出: -2 输入: 京A一二三四五 输出: 京A12345

6. 实际应用技巧与最佳实践

6.1 长文本综合处理

系统具备上下文感知能力，可在一段话中同时识别多种实体并分别转换。

输入: 这件事发生在二零一九年九月十二日的晚上，大概八点半左右，涉及金额为一万二千元。 输出: 这件事发生在2019年09月12日的晚上，大概8:30左右，涉及金额为12000元。

提示：避免在关键字段周围添加歧义修饰词，如“他说了一百”，可能误判为描述而非数值。

6.2 大规模数据预处理流程

针对千条以上文本的清洗任务，推荐以下工作流：

按部门/年份分类整理原始文本
每类生成一个.txt文件，每行一条记录
使用批量转换功能依次处理
下载结果并重命名归档（如2024_budget_cleaned.txt）
导入数据库或Excel进行下一步分析

6.3 结果保存与审计追踪

点击「保存到文件」按钮可将当前输出内容写入服务器：

文件路径：/root/itn-webui/saved/
命名规则：output_YYYYMMDD_HHMMSS.txt
权限控制：仅 root 用户可访问，防止未授权查看

此机制满足政务系统对操作留痕的基本要求。

7. 常见问题与维护指南

7.1 转换结果异常排查

问题现象	可能原因	解决方法
输出为空	输入含特殊符号或编码错误	清除不可见字符，使用纯文本编辑器重新输入
部分未转换	开关设置限制	检查“高级设置”中相关选项是否启用
多次加载缓慢	模型缓存未生效	重启服务`/bin/bash /root/run.sh`