FunASR WebUI使用全解析｜支持实时录音与多格式导出

1. 引言

随着语音识别技术的快速发展，高效、易用的本地化语音转文字工具成为开发者和内容创作者的重要需求。FunASR 作为一款功能强大的开源语音识别工具包，凭借其高精度模型和灵活部署能力，在工业界和学术界均获得了广泛认可。

本文将围绕“FunASR 语音识别基于speech_ngram_lm_zh-cn 二次开发构建by科哥”这一镜像版本，全面解析其 WebUI 界面的功能特性与使用方法。该版本在原生 FunASR 基础上进行了深度优化，集成 Paraformer-Large 和 SenseVoice-Small 双模型支持，并提供直观的图形化操作界面，支持浏览器端实时录音识别与多种格式结果导出（TXT、JSON、SRT），极大降低了语音识别技术的使用门槛。

通过本指南，您将掌握从环境访问到高级配置的完整流程，快速实现高质量中文语音识别应用落地。

2. 环境准备与访问方式

2.1 启动服务

确保已成功运行指定镜像后，系统会自动启动 WebUI 服务并监听默认端口。

2.2 访问地址

服务启动完成后，可通过以下方式访问 WebUI：

本地访问：http://localhost:7860
远程访问（需开放防火墙）：http://<服务器IP>:7860

提示：首次加载可能需要较长时间，请耐心等待模型初始化完成。

3. WebUI 界面详解

3.1 头部信息区域

页面顶部展示核心标识信息： -标题：FunASR 语音识别 WebUI -描述：基于 FunASR 的中文语音识别系统 -版权说明：webUI二次开发 by 科哥 | 微信：312088415

此部分为固定信息，用于声明项目归属与技术支持渠道。

3.2 控制面板（左侧功能区）

3.2.1 模型选择

支持两种主流 ASR 模型切换：

模型名称	特点	推荐场景
Paraformer-Large	高精度大模型，识别准确率更高	对准确性要求高的正式任务
SenseVoice-Small	轻量级小模型，响应速度快	实时交互或资源受限环境

默认选中SenseVoice-Small，用户可根据实际需求手动切换。

3.2.2 设备选择

决定推理所使用的硬件资源：

CUDA：启用 GPU 加速，显著提升处理速度（推荐有显卡用户）
CPU：纯 CPU 模式运行，兼容无独立显卡设备

系统会在启动时自动检测可用 GPU 并优先选择 CUDA 模式。

3.2.3 功能开关

三个关键增强功能可自由启停：

✅启用标点恢复 (PUNC)
自动为识别文本添加逗号、句号等标点符号，提升可读性。
✅启用语音活动检测 (VAD)
自动分割连续音频中的有效语音段，过滤静音与噪音片段。
✅输出时间戳
在结果中包含每句话/词的时间起止信息，适用于字幕生成与音频剪辑定位。

3.2.4 模型状态指示

实时显示当前模型加载情况： - ✓模型已加载：绿色对勾表示模型就绪，可进行识别 - ✗模型未加载：红色叉号表示模型尚未加载或加载失败

3.2.5 操作按钮

加载模型：手动触发模型加载或重新加载，适用于切换参数后刷新
刷新：更新当前状态显示，检查模型是否正常运行

4. 使用流程详解

4.1 方式一：上传音频文件识别

适用于已有录音文件的批量处理任务。

4.1.1 支持的音频格式

系统支持主流音频编码格式，无需预转换即可直接上传：

WAV (.wav)
MP3 (.mp3)
M4A (.m4a)
FLAC (.flac)
OGG (.ogg)
PCM (.pcm)

建议采样率：16kHz，以获得最佳识别效果。

4.1.2 文件上传步骤

进入 “ASR 语音识别” 区域
点击“上传音频”按钮
从本地选择目标音频文件
等待上传进度条完成

4.1.3 参数配置

批量大小（秒）
设置单次处理的最大音频长度，默认值为300秒（即 5 分钟）。
可调范围：60 ~ 600 秒。超长音频将被自动分段处理。
识别语言
提供多语种识别选项，提升跨语言场景适应性：

选项	说明
`auto`	自动检测语言（推荐混合语种内容）
`zh`	中文普通话
`en`	英文
`yue`	粤语
`ja`	日语
`ko`	韩语

4.1.4 开始识别

点击“开始识别”按钮，系统将根据所选模型与参数执行语音转写任务。处理时间取决于音频长度、模型类型及设备性能。

4.1.5 查看识别结果

识别完成后，结果将以标签页形式呈现于下方区域：

文本结果

显示最终生成的纯文本内容，支持一键复制，便于后续编辑使用。

详细信息

以 JSON 格式展示完整识别数据，包括： - 识别文本 - 时间戳区间 - 各片段置信度分数 - 语言类型（如启用多语种）

适合程序化处理或进一步分析。

时间戳

结构化展示每个句子或词语的起止时间，格式如下：

[序号] 开始时间 - 结束时间 (时长)

例如：

[001] 0.000s - 2.500s (时长: 2.500s)

常用于视频字幕同步或语音事件标注。

4.2 方式二：浏览器实时录音识别

适用于会议记录、即时听写等现场语音采集场景。

4.2.1 开启录音

点击“麦克风录音”按钮
浏览器弹出权限请求时，点击“允许”

若未出现提示，请检查浏览器设置中是否已禁用麦克风权限。

4.2.2 录制语音

对准麦克风清晰发音
支持持续录制，最长不限时长（受内存限制）
点击“停止录音”结束录制

系统会自动保存录音为临时 WAV 文件并准备识别。

4.2.3 执行识别

点击“开始识别”按钮，其余流程与上传文件一致。

4.2.4 注意事项

确保麦克风物理连接正常且驱动工作
尽量在安静环境中录音，避免背景噪声干扰
保持适当距离（建议 10~30cm），防止爆音或拾音不清

5. 结果下载与文件管理

识别完成后，系统支持三种常用格式导出，满足不同下游应用场景。

5.1 下载按钮功能说明

按钮	输出格式	典型用途
下载文本	`.txt`	纯文本存档、导入文档编辑器
下载 JSON	`.json`	数据分析、API 接口对接
下载 SRT	`.srt`	视频字幕嵌入、播放器加载

所有文件均为 UTF-8 编码，确保中文兼容性。

5.2 输出目录结构

每次识别操作都会创建一个独立的时间戳命名目录，路径如下：

outputs/outputs_YYYYMMDDHHMMSS/

示例目录内容：

outputs/outputs_20260104123456/ ├── audio_001.wav # 原始音频副本（上传或录制） ├── result_001.json # 完整识别结果（含时间戳与置信度） ├── text_001.txt # 纯文本摘要 └── subtitle_001.srt # SRT 字幕文件（可用于剪映、Premiere 等）

优势：按时间隔离输出，避免文件覆盖，方便归档追溯。

6. 高级功能配置建议

6.1 批量大小调整策略

场景	推荐设置	说明
短语音（<1分钟）	60~120秒	快速响应，减少延迟
会议录音（5~10分钟）	300秒（默认）	平衡效率与资源占用
长篇讲座/访谈（>10分钟）	600秒	最大限度减少分段次数

更大的批处理尺寸有助于上下文连贯性，但会增加内存消耗。

6.2 语言识别设置技巧

单一语言内容 → 明确指定对应语言（如zh）
中英混合演讲 → 使用auto自动检测
方言或特定口音 → 优先尝试zh+ VAD 开启
多语种交替对话 →auto模式配合后期人工校对

6.3 时间戳应用场景

视频制作：将.srt文件导入剪辑软件生成字幕轨
教学资源：标记课程重点段落时间点，便于学生回看
法律取证：精确记录语音证据中每一句话的发生时刻
播客编辑：快速定位无效片段进行裁剪

7. 常见问题与解决方案

7.1 Q1：识别结果不准确怎么办？

解决方法：1. 检查并正确设置“识别语言”选项 2. 提升原始音频质量，尽量使用清晰录音 3. 调整录音音量至适中水平（避免过低或削峰） 4. 如存在明显背景噪音，建议先进行降噪预处理

7.2 Q2：识别速度慢如何优化？

排查方向：- 是否误用了 CPU 模式？请确认“设备选择”为 CUDA - 音频是否过长？建议分段处理超过 10 分钟的内容 - 当前模型是否为 Paraformer-Large？可临时切换至 SenseVoice-Small 测试性能差异

7.3 Q3：无法上传音频文件？

检查项：- 文件扩展名是否在支持列表内（推荐使用 MP3 或 WAV） - 文件体积是否过大（建议控制在 100MB 以内） - 浏览器是否存在兼容性问题（推荐 Chrome/Firefox）

7.4 Q4：录音没有声音？

排查步骤：1. 确认浏览器已授予麦克风权限 2. 检查操作系统音频设置中麦克风是否启用 3. 测试其他录音软件验证硬件是否正常工作 4. 调整系统麦克风增益（音量）至合理水平

7.5 Q5：识别结果出现乱码？

应对措施：- 确保选择了正确的识别语言（如中文应选zh或auto） - 检查音频编码是否损坏，尝试重新导出为标准格式 - 更换不同来源的音频文件测试是否复现

7.6 Q6：如何提高整体识别准确率？

综合建议：1. 使用 16kHz 采样率的高质量音频输入 2. 减少环境背景噪音（可借助专业降噪工具） 3. 发音清晰、语速适中，避免吞音或过快表达 4. 正确配置语言模式，必要时开启标点恢复与 VAD

8. 退出与快捷操作

8.1 停止服务

在终端中按下组合键：

Ctrl + C

或执行命令强制终止进程：

pkill -f "python.*app.main"

8.2 快捷键汇总

操作	快捷键
停止服务	Ctrl + C
刷新页面	F5 或 Ctrl + R
复制文本	Ctrl + C（在结果区选中后）

9. 总结

本文系统介绍了“FunASR 语音识别基于speech_ngram_lm_zh-cn 二次开发构建by科哥”镜像版本的 WebUI 使用全流程。该工具不仅继承了 FunASR 强大的语音识别能力，还通过图形化界面大幅简化了操作复杂度，真正实现了“开箱即用”。

核心亮点总结如下： - ✅ 支持双模型切换（Paraformer-Large / SenseVoice-Small），兼顾精度与速度 - ✅ 提供浏览器端实时录音功能，无需额外录音工具 - ✅ 实现多格式结果导出（TXT、JSON、SRT），无缝对接各类应用场景 - ✅ 内置VAD 与 PUNC增强模块，提升识别结果可用性 - ✅ 输出文件自动按时间归档，便于管理和追溯

无论是个人笔记整理、会议纪要生成，还是视频字幕制作，该 WebUI 版本都能提供稳定高效的本地化语音识别解决方案。