FunASR WebUI使用全解析|支持实时录音与多格式导出
1. 引言
随着语音识别技术的快速发展,高效、易用的本地化语音转文字工具成为开发者和内容创作者的重要需求。FunASR 作为一款功能强大的开源语音识别工具包,凭借其高精度模型和灵活部署能力,在工业界和学术界均获得了广泛认可。
本文将围绕“FunASR 语音识别基于speech_ngram_lm_zh-cn 二次开发构建by科哥”这一镜像版本,全面解析其 WebUI 界面的功能特性与使用方法。该版本在原生 FunASR 基础上进行了深度优化,集成 Paraformer-Large 和 SenseVoice-Small 双模型支持,并提供直观的图形化操作界面,支持浏览器端实时录音识别与多种格式结果导出(TXT、JSON、SRT),极大降低了语音识别技术的使用门槛。
通过本指南,您将掌握从环境访问到高级配置的完整流程,快速实现高质量中文语音识别应用落地。
2. 环境准备与访问方式
2.1 启动服务
确保已成功运行指定镜像后,系统会自动启动 WebUI 服务并监听默认端口。
2.2 访问地址
服务启动完成后,可通过以下方式访问 WebUI:
本地访问:
http://localhost:7860远程访问(需开放防火墙):
http://<服务器IP>:7860
提示:首次加载可能需要较长时间,请耐心等待模型初始化完成。
3. WebUI 界面详解
3.1 头部信息区域
页面顶部展示核心标识信息: -标题:FunASR 语音识别 WebUI -描述:基于 FunASR 的中文语音识别系统 -版权说明:webUI二次开发 by 科哥 | 微信:312088415
此部分为固定信息,用于声明项目归属与技术支持渠道。
3.2 控制面板(左侧功能区)
3.2.1 模型选择
支持两种主流 ASR 模型切换:
| 模型名称 | 特点 | 推荐场景 |
|---|---|---|
| Paraformer-Large | 高精度大模型,识别准确率更高 | 对准确性要求高的正式任务 |
| SenseVoice-Small | 轻量级小模型,响应速度快 | 实时交互或资源受限环境 |
默认选中
SenseVoice-Small,用户可根据实际需求手动切换。
3.2.2 设备选择
决定推理所使用的硬件资源:
- CUDA:启用 GPU 加速,显著提升处理速度(推荐有显卡用户)
- CPU:纯 CPU 模式运行,兼容无独立显卡设备
系统会在启动时自动检测可用 GPU 并优先选择 CUDA 模式。
3.2.3 功能开关
三个关键增强功能可自由启停:
✅启用标点恢复 (PUNC)
自动为识别文本添加逗号、句号等标点符号,提升可读性。✅启用语音活动检测 (VAD)
自动分割连续音频中的有效语音段,过滤静音与噪音片段。✅输出时间戳
在结果中包含每句话/词的时间起止信息,适用于字幕生成与音频剪辑定位。
3.2.4 模型状态指示
实时显示当前模型加载情况: - ✓模型已加载:绿色对勾表示模型就绪,可进行识别 - ✗模型未加载:红色叉号表示模型尚未加载或加载失败
3.2.5 操作按钮
- 加载模型:手动触发模型加载或重新加载,适用于切换参数后刷新
- 刷新:更新当前状态显示,检查模型是否正常运行
4. 使用流程详解
4.1 方式一:上传音频文件识别
适用于已有录音文件的批量处理任务。
4.1.1 支持的音频格式
系统支持主流音频编码格式,无需预转换即可直接上传:
- WAV (.wav)
- MP3 (.mp3)
- M4A (.m4a)
- FLAC (.flac)
- OGG (.ogg)
- PCM (.pcm)
建议采样率:16kHz,以获得最佳识别效果。
4.1.2 文件上传步骤
- 进入 “ASR 语音识别” 区域
- 点击“上传音频”按钮
- 从本地选择目标音频文件
- 等待上传进度条完成
4.1.3 参数配置
批量大小(秒)
设置单次处理的最大音频长度,默认值为300秒(即 5 分钟)。
可调范围:60 ~ 600 秒。超长音频将被自动分段处理。识别语言
提供多语种识别选项,提升跨语言场景适应性:
| 选项 | 说明 |
|---|---|
auto | 自动检测语言(推荐混合语种内容) |
zh | 中文普通话 |
en | 英文 |
yue | 粤语 |
ja | 日语 |
ko | 韩语 |
4.1.4 开始识别
点击“开始识别”按钮,系统将根据所选模型与参数执行语音转写任务。处理时间取决于音频长度、模型类型及设备性能。
4.1.5 查看识别结果
识别完成后,结果将以标签页形式呈现于下方区域:
文本结果
显示最终生成的纯文本内容,支持一键复制,便于后续编辑使用。
详细信息
以 JSON 格式展示完整识别数据,包括: - 识别文本 - 时间戳区间 - 各片段置信度分数 - 语言类型(如启用多语种)
适合程序化处理或进一步分析。
时间戳
结构化展示每个句子或词语的起止时间,格式如下:
[序号] 开始时间 - 结束时间 (时长)例如:
[001] 0.000s - 2.500s (时长: 2.500s)常用于视频字幕同步或语音事件标注。
4.2 方式二:浏览器实时录音识别
适用于会议记录、即时听写等现场语音采集场景。
4.2.1 开启录音
- 点击“麦克风录音”按钮
- 浏览器弹出权限请求时,点击“允许”
若未出现提示,请检查浏览器设置中是否已禁用麦克风权限。
4.2.2 录制语音
- 对准麦克风清晰发音
- 支持持续录制,最长不限时长(受内存限制)
- 点击“停止录音”结束录制
系统会自动保存录音为临时 WAV 文件并准备识别。
4.2.3 执行识别
点击“开始识别”按钮,其余流程与上传文件一致。
4.2.4 注意事项
- 确保麦克风物理连接正常且驱动工作
- 尽量在安静环境中录音,避免背景噪声干扰
- 保持适当距离(建议 10~30cm),防止爆音或拾音不清
5. 结果下载与文件管理
识别完成后,系统支持三种常用格式导出,满足不同下游应用场景。
5.1 下载按钮功能说明
| 按钮 | 输出格式 | 典型用途 |
|---|---|---|
| 下载文本 | .txt | 纯文本存档、导入文档编辑器 |
| 下载 JSON | .json | 数据分析、API 接口对接 |
| 下载 SRT | .srt | 视频字幕嵌入、播放器加载 |
所有文件均为 UTF-8 编码,确保中文兼容性。
5.2 输出目录结构
每次识别操作都会创建一个独立的时间戳命名目录,路径如下:
outputs/outputs_YYYYMMDDHHMMSS/示例目录内容:
outputs/outputs_20260104123456/ ├── audio_001.wav # 原始音频副本(上传或录制) ├── result_001.json # 完整识别结果(含时间戳与置信度) ├── text_001.txt # 纯文本摘要 └── subtitle_001.srt # SRT 字幕文件(可用于剪映、Premiere 等)优势:按时间隔离输出,避免文件覆盖,方便归档追溯。
6. 高级功能配置建议
6.1 批量大小调整策略
| 场景 | 推荐设置 | 说明 |
|---|---|---|
| 短语音(<1分钟) | 60~120秒 | 快速响应,减少延迟 |
| 会议录音(5~10分钟) | 300秒(默认) | 平衡效率与资源占用 |
| 长篇讲座/访谈(>10分钟) | 600秒 | 最大限度减少分段次数 |
更大的批处理尺寸有助于上下文连贯性,但会增加内存消耗。
6.2 语言识别设置技巧
- 单一语言内容 → 明确指定对应语言(如
zh) - 中英混合演讲 → 使用
auto自动检测 - 方言或特定口音 → 优先尝试
zh+ VAD 开启 - 多语种交替对话 →
auto模式配合后期人工校对
6.3 时间戳应用场景
- 视频制作:将
.srt文件导入剪辑软件生成字幕轨 - 教学资源:标记课程重点段落时间点,便于学生回看
- 法律取证:精确记录语音证据中每一句话的发生时刻
- 播客编辑:快速定位无效片段进行裁剪
7. 常见问题与解决方案
7.1 Q1:识别结果不准确怎么办?
解决方法:1. 检查并正确设置“识别语言”选项 2. 提升原始音频质量,尽量使用清晰录音 3. 调整录音音量至适中水平(避免过低或削峰) 4. 如存在明显背景噪音,建议先进行降噪预处理
7.2 Q2:识别速度慢如何优化?
排查方向:- 是否误用了 CPU 模式?请确认“设备选择”为 CUDA - 音频是否过长?建议分段处理超过 10 分钟的内容 - 当前模型是否为 Paraformer-Large?可临时切换至 SenseVoice-Small 测试性能差异
7.3 Q3:无法上传音频文件?
检查项:- 文件扩展名是否在支持列表内(推荐使用 MP3 或 WAV) - 文件体积是否过大(建议控制在 100MB 以内) - 浏览器是否存在兼容性问题(推荐 Chrome/Firefox)
7.4 Q4:录音没有声音?
排查步骤:1. 确认浏览器已授予麦克风权限 2. 检查操作系统音频设置中麦克风是否启用 3. 测试其他录音软件验证硬件是否正常工作 4. 调整系统麦克风增益(音量)至合理水平
7.5 Q5:识别结果出现乱码?
应对措施:- 确保选择了正确的识别语言(如中文应选zh或auto) - 检查音频编码是否损坏,尝试重新导出为标准格式 - 更换不同来源的音频文件测试是否复现
7.6 Q6:如何提高整体识别准确率?
综合建议:1. 使用 16kHz 采样率的高质量音频输入 2. 减少环境背景噪音(可借助专业降噪工具) 3. 发音清晰、语速适中,避免吞音或过快表达 4. 正确配置语言模式,必要时开启标点恢复与 VAD
8. 退出与快捷操作
8.1 停止服务
在终端中按下组合键:
Ctrl + C或执行命令强制终止进程:
pkill -f "python.*app.main"8.2 快捷键汇总
| 操作 | 快捷键 |
|---|---|
| 停止服务 | Ctrl + C |
| 刷新页面 | F5 或 Ctrl + R |
| 复制文本 | Ctrl + C(在结果区选中后) |
9. 总结
本文系统介绍了“FunASR 语音识别基于speech_ngram_lm_zh-cn 二次开发构建by科哥”镜像版本的 WebUI 使用全流程。该工具不仅继承了 FunASR 强大的语音识别能力,还通过图形化界面大幅简化了操作复杂度,真正实现了“开箱即用”。
核心亮点总结如下: - ✅ 支持双模型切换(Paraformer-Large / SenseVoice-Small),兼顾精度与速度 - ✅ 提供浏览器端实时录音功能,无需额外录音工具 - ✅ 实现多格式结果导出(TXT、JSON、SRT),无缝对接各类应用场景 - ✅ 内置VAD 与 PUNC增强模块,提升识别结果可用性 - ✅ 输出文件自动按时间归档,便于管理和追溯
无论是个人笔记整理、会议纪要生成,还是视频字幕制作,该 WebUI 版本都能提供稳定高效的本地化语音识别解决方案。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。