Fun-ASR语音识别系统搭建：基于钉钉通义大模型的实操案例

1. 引言

随着语音交互技术在智能客服、会议记录、教育辅助等场景中的广泛应用，高精度、低延迟的语音识别系统成为企业数字化转型的重要工具。Fun-ASR 是由钉钉与通义实验室联合推出的语音识别大模型系统，具备多语言支持、高准确率和轻量化部署能力，适用于本地化或私有化部署需求。

本文将围绕 Fun-ASR 的 WebUI 版本，详细介绍其系统搭建流程、核心功能使用方法及工程实践中的优化建议。内容由开发者“科哥”基于真实项目经验整理，旨在为 AI 工程师、运维人员和技术爱好者提供一套完整可落地的语音识别解决方案。

2. 系统部署与快速启动

2.1 环境准备

在部署 Fun-ASR WebUI 前，请确保服务器满足以下基础环境要求：

操作系统：Linux（Ubuntu 20.04+ 推荐）、macOS 或 Windows（WSL2）
Python 版本：3.9 或以上
GPU 支持（可选但推荐）：
NVIDIA 显卡 + CUDA 11.8+
cuDNN 8.6+
内存：至少 8GB RAM（GPU 模式下建议 16GB+）
磁盘空间：≥20GB 可用空间（含模型缓存）

安装依赖库：

pip install torch torchaudio transformers gradio sqlite3

2.2 启动应用

克隆项目并进入目录后，执行启动脚本：

bash start_app.sh

该脚本会自动加载模型、初始化数据库，并启动 Gradio Web 服务。

2.3 访问地址

本地访问：http://localhost:7860
远程访问：http://<服务器IP>:7860

提示：若需远程访问，请确保防火墙开放 7860 端口，并在start_app.sh中设置--share false --server_name 0.0.0.0参数。

3. 核心功能详解

Fun-ASR WebUI 提供六大核心模块，覆盖从单文件识别到批量处理的全链路语音识别需求。

3.1 功能概览

功能	说明	适用场景
语音识别	单音频文件转文字	会议录音、访谈整理
实时流式识别	麦克风实时转写	在线直播字幕、语音输入
批量处理	多文件自动识别	客服录音归档、教学资源处理
识别历史	记录管理与检索	数据追溯、结果复用
VAD 检测	语音活动片段分析	音频预处理、静音过滤
系统设置	模型与性能调优	资源调度、设备切换

4. 语音识别功能实践

4.1 使用流程

步骤一：上传音频

支持两种方式输入音频：

上传文件：点击“上传音频文件”按钮，选择本地.wav,.mp3,.m4a,.flac等格式。
麦克风录音：点击麦克风图标，浏览器请求权限后开始录制。

建议：优先使用 WAV 格式以减少解码损耗；采样率推荐 16kHz。

步骤二：参数配置

热词列表（Hotwords）

用于提升特定术语的识别准确率，尤其适用于行业专有名词。

示例热词配置：

开放时间 营业时间 客服电话 预约流程

每行一个词汇，系统会在解码阶段增强这些词的权重。

目标语言

支持： - 中文（默认） - 英文 - 日文

可根据音频内容选择对应语言，避免跨语种误识别。

文本规整（ITN）

启用后，将口语表达转换为规范书面语：

输入	输出
一千二百三十四	1234
二零二五年	2025年
下午三点二十	15:20

建议保持开启状态，便于后续文本处理。

步骤三：开始识别

点击“开始识别”，系统调用 Fun-ASR 模型进行推理，结果显示于下方两个区域：

原始识别文本：未经处理的 ASR 输出
规整后文本：经 ITN 规则标准化后的结果

4.2 实践技巧

音频质量优先：清晰无噪音的录音显著提升识别准确率
合理使用热词：控制在 20 个以内，避免干扰正常解码
分段处理长音频：超过 5 分钟的音频建议先切片再识别

5. 实时流式识别实现机制

5.1 功能原理

尽管 Fun-ASR 模型本身不原生支持流式推理，WebUI 通过VAD + 分段识别模拟实现实时效果：

使用 Voice Activity Detection（VAD）检测语音活跃段
将连续语音切分为 ≤30 秒的小片段
对每个片段快速调用非流式模型识别
实时拼接输出结果

此方案在保证延迟可控的前提下，实现了接近真流式的用户体验。

5.2 操作步骤

允许浏览器麦克风权限
点击麦克风图标开始录音
说话过程中，界面实时显示语音波形
结束后点击“停止”
点击“开始实时识别”，系统逐段处理并输出文本

5.3 注意事项

⚠️ 当前为实验性功能，存在如下限制：

最大支持单次录音 10 分钟
不支持边说边出字（仅能整段输出）
高并发下可能影响响应速度

未来版本计划集成真正的流式 ASR 模型以改善体验。

6. 批量处理高效策略

6.1 批量识别流程

上传多个文件：支持拖拽或批量选择
统一参数设置：
目标语言
是否启用 ITN
共用热词列表
启动处理：点击“开始批量处理”
监控进度：实时显示当前文件名、完成数/总数
导出结果：支持 CSV 和 JSON 格式下载

6.2 性能优化建议

优化项	推荐做法
文件分组	按语言或主题分类处理，避免频繁切换模型
批次大小	每批不超过 50 个文件，防止内存溢出
GPU 利用	开启 CUDA 加速，批处理速度提升约 3x
并发控制	避免同时运行多个批量任务

6.3 导出格式示例（JSON）

[ { "filename": "meeting_01.mp3", "language": "zh", "text": "今天召开项目启动会...", "normalized_text": "今天召开项目启动会", "duration": 187.4, "timestamp": "2025-12-20T10:30:15Z" } ]

适合导入数据库或用于自动化工作流。

7. 识别历史管理

7.1 数据存储结构

所有识别记录持久化保存在 SQLite 数据库中：

路径：webui/data/history.db
表结构：
id（主键）
filename
filepath
text_raw
text_normalized
language
hotwords_used
itn_enabled
created_at

支持定期备份此文件以防数据丢失。

7.2 功能操作

查看最近 100 条记录
关键词搜索：支持模糊匹配文件名或识别内容
查看详情：输入 ID 查看完整元数据
删除记录：按 ID 删除指定条目
清空全部：一键清除所有历史（不可逆）

警告：清空操作无法撤销，请谨慎执行。

8. VAD 检测与音频预处理

8.1 VAD 技术价值

Voice Activity Detection（语音活动检测）是语音识别前的关键预处理步骤，主要用于：

过滤长时间静音
分离多人对话片段
提高识别效率（仅处理有效语音段）

8.2 参数设置

最大单段时长（单位：ms）： - 范围：1000 ~ 60000（即 1s ~ 60s） - 默认值：30000（30 秒）

过长的语音段可能导致识别错误累积，建议控制在 30 秒内。

8.3 输出结果

识别完成后展示如下信息：

语音片段数量
每个片段的起止时间（如[00:12.345 - 00:25.678]）
片段时长
对应识别文本（可选）

可用于生成字幕时间轴或构建语音切片任务。

9. 系统设置与性能调优

9.1 计算设备选择

设备类型	说明
自动检测	系统优先尝试 GPU，失败则回退 CPU
CUDA (GPU)	使用 NVIDIA 显卡加速，性能最佳
CPU	通用兼容模式，适合无 GPU 环境
MPS	Apple Silicon Mac 专用 GPU 加速