FST ITN-ZH实战指南：新闻标题标准化处理技巧

1. 简介与背景

在自然语言处理（NLP）的实际应用中，尤其是在新闻、媒体和内容平台的自动化处理流程中，逆文本标准化（Inverse Text Normalization, ITN）是一个关键预处理环节。其核心任务是将口语化、非结构化的中文表达转换为标准、可计算的格式。

FST ITN-ZH 是基于有限状态转导器（Finite State Transducer, FST）实现的中文逆文本标准化系统，能够高效处理日期、时间、数字、货币、度量单位等多种语义类型。本文聚焦于FST ITN-ZH 的 WebUI 二次开发版本（by 科哥），重点介绍其在新闻标题标准化处理场景下的实战应用技巧，帮助开发者和内容工程师快速上手并优化使用体验。

本指南不涉及底层模型训练或FST构建原理，而是围绕实际工程落地中的典型问题展开，提供可复用的操作策略和最佳实践。

2. 系统功能概览

2.1 核心能力

FST ITN-ZH 支持以下主要类型的中文表达到标准格式的映射：

日期：二零零八年八月八日→2008年08月08日
时间：早上八点半→8:30a.m.
数字：一百二十三→123
货币：一点二五元→¥1.25
分数/比例：五分之一→1/5
度量单位：二十五千克→25kg
数学符号：负二→-2
车牌号：京A一二三四五→京A12345

这些能力对于新闻标题中常见的“口语化数字”、“模糊时间描述”等具有极强的规范化价值。

2.2 用户界面说明

该WebUI版本由社区开发者“科哥”进行二次封装，提供了直观的操作界面，包含两大核心功能模块：

📝 文本转换：单条文本实时转换
📦 批量转换：支持.txt文件上传，适用于批量清洗新闻数据

界面布局简洁清晰，包含输入框、输出框、控制按钮及示例快捷入口，适合非技术人员直接操作。

访问地址：http://<服务器IP>:7860

启动命令：

/bin/bash /root/run.sh

3. 新闻标题标准化实战技巧

新闻标题常包含大量口语化、文学化甚至方言色彩的数字与时间表达，如“去年夏天”、“近两百人伤亡”、“凌晨四点左右”。这类表达不利于结构化分析、时间排序或数据库存储。以下是结合 FST ITN-ZH 功能设计的三大实战技巧。

3.1 技巧一：长文本多实体联合提取

FST ITN-ZH 能够在同一段文本中识别并转换多个不同类型的实体，这对复杂新闻标题尤其重要。

示例场景

原始标题：

二零二三年十一月五日下午三点，某市发生一起重大交通事故，造成至少十五人死亡，三十余人受伤。

经 ITN 处理后输出：

2023年11月05日 3:00p.m.，某市发生一起重大交通事故，造成至少15人死亡，30余人受伤。

实战建议

在“高级设置”中开启「转换独立数字」和「转换单个数字 (0-9)」
关闭「完全转换'万'」，避免将“十余人”误转为“10000余人”
可通过“复制结果”按钮反复调试参数组合

此技巧适用于需要保留原文语义结构的同时完成数值标准化的场景。

3.2 技巧二：批量清洗历史新闻数据

当面对成千上万条历史新闻标题时，手动处理不可行。利用批量转换功能可实现高效清洗。

操作步骤

准备待处理文件news_titles.txt，每行一条标题：去年十二月十日发生了什么？一百多名学生参加活动零下五度低温预警
进入 WebUI → 切换至「📦 批量转换」标签页
点击「上传文件」选择news_titles.txt
设置高级选项：
✅ 转换独立数字
✅ 转换单个数字
❌ 完全转换'万'
点击「批量转换」
下载生成的结果文件（命名含时间戳）

输出示例

去年12月10日发生了什么？ 100多名学生参加活动 -5度低温预警

提示：虽然“去年”无法被ITN自动解析为具体年份，但其他数字已成功标准化，便于后续结合时间上下文补全。

3.3 技巧三：结合正则预处理提升准确率

FST ITN-ZH 对标准中文数字表达支持良好，但对于非常规写法（如“幺幺零”表示“110”），需配合前端预处理。

典型问题

输入：紧急呼叫幺幺零期望输出：紧急呼叫110实际输出：紧急呼叫幺幺零（未识别）

解决方案

在送入 ITN 前，先执行一次轻量级字符串替换：

def preprocess_chinese_numbers(text): replacements = { '幺': '一', '两': '二', '半': '.5', # 特殊处理：“两个半小时”→“2.5小时” '廿': '二十', # 如“廿三岁”→“二十三岁” '卅': '三十' } for k, v in replacements.items(): text = text.replace(k, v) return text # 使用示例 raw_title = "紧急呼叫幺幺零" cleaned = preprocess_chinese_numbers(raw_title) # → "紧急呼叫一一零" # 再传给 ITN → "紧急呼叫110"

4. 高级设置详解与选型建议

设置项	开启效果	关闭效果	推荐场景
转换独立数字	`幸运一百`→`幸运100`	保持原样	数据清洗、结构化入库
转换单个数字 (0-9)	`零和九`→`0和9`	保持原样	数值密集型文本（如财报）
完全转换'万'	`六百万`→`6000000`	`六百万`→`600万`	需要纯数字计算的场景

场景化配置建议

应用场景	推荐设置
新闻标题归一化	✅ 独立数字 ✅ 单个数字 ❌ 完全转换'万'
财务报告解析	✅ 独立数字 ✅ 单个数字 ✅ 完全转换'万'
社交媒体评论分析	✅ 独立数字 ❌ 单个数字 ❌ 完全转换'万'（保留可读性）

5. 常见问题与避坑指南

5.1 Q：为什么“去年”、“明天”这类相对时间无法转换？

A：FST ITN-ZH 主要处理绝对数值表达，不包含时间推理逻辑。“去年”属于相对时间，需结合发布日期通过外部逻辑推算。建议做法：

标题: 去年十二月发生的事 发布时间: 2024年3月1日 → 推断为: 2023年12月发生的事 → 再送入 ITN → 2023年12月发生的事（已完成标准化）

5.2 Q：大写数字（壹、贰、叁）是否支持？

A：支持。系统能正确识别并转换大写汉字数字，例如：

输入: 壹万元整 输出: ¥10000

适用于合同、公告类文本的处理。

5.3 Q：如何提高大批量处理效率？

A：WebUI 的批量功能适合中小规模任务（<1万条）。若需更高性能，建议：

查看项目是否提供 CLI 或 REST API 接口
编写 Python 脚本批量调用接口
使用多线程并发处理（注意服务端负载）

示例伪代码：

import requests def itn_convert(text): response = requests.post("http://localhost:7860/api/convert", json={"text": text}) return response.json()["result"] # 批量处理 with open("input.txt") as f, open("output.txt", "w") as out: for line in f: result = itn_convert(line.strip()) out.write(result + "\n")