从零构建语音识别服务|科哥FunASR镜像与WebUI使用指南
1. 快速入门:部署与访问
1.1 镜像简介
本指南基于由开发者“科哥”二次开发的FunASR 语音识别镜像,该镜像在原始speech_ngram_lm_zh-cn模型基础上进行了功能增强和 WebUI 封装,支持中文高精度语音识别、标点恢复、时间戳输出及多格式导出。适用于本地部署、离线识别、字幕生成等场景。
- 镜像名称:
FunASR 语音识别基于speech_ngram_lm_zh-cn 二次开发构建by科哥 - 核心技术:Paraformer-Large / SenseVoice-Small ASR 模型
- 运行环境:Docker + GPU/CPU 支持(CUDA 可选)
- 开源承诺:永久免费,保留版权信息
1.2 启动服务
确保已安装 Docker 环境后,执行以下命令拉取并启动镜像:
# 拉取镜像(示例,请根据实际仓库地址替换) docker pull your-repo/funasr-webui:koge-v1 # 启动容器 docker run -d \ --name funasr-webui \ -p 7860:7860 \ --gpus all \ # 若使用GPU -v ./outputs:/app/outputs \ your-repo/funasr-webui:koge-v1⚠️ 注意:若无 NVIDIA 显卡支持,请移除
--gpus all参数以 CPU 模式运行。
1.3 访问 WebUI
服务启动成功后,打开浏览器访问:
http://localhost:7860或从远程设备访问:
http://<服务器IP>:7860页面加载完成后将显示如下界面:
2. WebUI 界面详解
2.1 头部区域
- 标题:FunASR 语音识别 WebUI
- 描述:基于 FunASR 的中文语音识别系统
- 版权信息:webUI二次开发 by 科哥 | 微信:312088415
此部分为固定展示区,提供项目归属与联系信息。
2.2 控制面板(左侧)
2.2.1 模型选择
| 模型 | 特点 | 推荐场景 |
|---|---|---|
| Paraformer-Large | 高精度、大参数量 | 对准确率要求高的长音频识别 |
| SenseVoice-Small | 响应快、资源占用低 | 实时录音、短句识别 |
默认选中
SenseVoice-Small,可根据需求切换。
2.2.2 设备选择
- CUDA:启用 GPU 加速(推荐有显卡用户)
- CPU:纯 CPU 推理(兼容性更好,速度较慢)
系统会自动检测 CUDA 是否可用,建议优先选择 CUDA 模式提升性能。
2.2.3 功能开关
- ✅启用标点恢复 (PUNC):自动添加句号、逗号等标点符号
- ✅启用语音活动检测 (VAD):智能分割静音段,提升断句准确性
- ✅输出时间戳:在结果中包含每句话的时间区间
这些选项可显著提升识别结果的可读性和实用性。
2.2.4 模型状态
实时显示当前模型加载状态:
- ✓模型已加载:准备就绪,可进行识别
- ✗模型未加载:需点击“加载模型”手动初始化
2.2.5 操作按钮
- 加载模型:重新加载当前配置下的模型(可用于切换模型或重置状态)
- 刷新:更新界面状态信息
3. 使用流程详解
3.1 方式一:上传音频文件识别
步骤 1:准备音频文件
支持格式包括:
- WAV (.wav)
- MP3 (.mp3)
- M4A (.m4a)
- FLAC (.flac)
- OGG (.ogg)
- PCM (.pcm)
推荐参数:
- 采样率:16kHz
- 单声道(Mono)
- 编码清晰、背景噪音小
步骤 2:上传文件
- 在主界面找到ASR 语音识别区域
- 点击“上传音频”按钮
- 选择本地音频文件并等待上传完成
步骤 3:配置识别参数
- 批量大小(秒):默认 300 秒(5 分钟),最大支持 600 秒
- 识别语言:
auto:自动检测(推荐)zh:强制中文识别en:英文yue:粤语ja:日语ko:韩语
建议混合语言内容使用
auto,单一语言可指定对应语种以提高准确率。
步骤 4:开始识别
点击“开始识别”按钮,系统将调用选定模型进行推理处理。
处理时间取决于:
- 音频长度
- 模型类型(Large 更慢但更准)
- 运行设备(GPU 快于 CPU)
步骤 5:查看识别结果
识别完成后,结果分为三个标签页展示:
文本结果
纯文本输出,便于复制粘贴使用:
你好,欢迎使用语音识别系统。这是一个基于 FunASR 的中文语音识别 WebUI。详细信息(JSON)
结构化数据,包含置信度、时间戳、分词等元信息:
{ "text": "你好欢迎使用语音识别系统", "timestamp": [[0.0, 0.5], [0.5, 2.5], [2.5, 5.0]], "confidence": [0.98, 0.96, 0.97] }时间戳
按序号列出每个片段的起止时间:
[001] 0.000s - 0.500s (时长: 0.500s) [002] 0.500s - 2.500s (时长: 2.000s) [003] 2.500s - 5.000s (时长: 2.500s)3.2 方式二:浏览器实时录音
步骤 1:开始录音
- 点击“麦克风录音”按钮
- 浏览器弹出权限请求 → 点击“允许”
确保麦克风正常工作且未被其他程序占用。
步骤 2:录制语音
- 对着麦克风清晰说话
- 点击“停止录音”结束录制
录音将以.wav格式临时保存,供后续识别使用。
步骤 3:开始识别
与上传文件一致,点击“开始识别”即可。
步骤 4:查看结果
同“上传音频文件识别”的结果展示方式,支持文本、JSON 和 SRT 导出。
4. 结果下载与文件管理
4.1 下载按钮说明
| 按钮 | 文件格式 | 用途 |
|---|---|---|
| 下载文本 | .txt | 纯文字内容,适合文档整理 |
| 下载 JSON | .json | 开发对接、数据分析 |
| 下载 SRT | .srt | 视频字幕制作、剪辑辅助 |
4.2 输出目录结构
所有识别结果统一保存在容器内的/app/outputs目录下,映射到宿主机的./outputs:
outputs/ └── outputs_20260104123456/ ├── audio_001.wav # 原始音频副本 ├── result_001.json # 完整识别结果 ├── text_001.txt # 纯文本输出 └── subtitle_001.srt # SRT 字幕文件每次识别均创建独立时间戳目录,避免覆盖冲突。
5. 高级功能配置
5.1 批量大小调整
- 范围:60 ~ 600 秒
- 作用:控制单次处理的最大音频时长
- 建议设置:
- < 5分钟:保持默认 300 秒
5分钟:分段上传处理,避免内存溢出
5.2 语言识别设置
合理选择语言可显著提升识别准确率:
| 场景 | 推荐设置 |
|---|---|
| 中文普通话 | zh |
| 英文演讲 | en |
| 粤语访谈 | yue |
| 中英混合 | auto |
| 日语课程 | ja |
若识别错误频繁,优先检查语言设置是否匹配。
5.3 时间戳输出应用
开启“输出时间戳”后,可用于:
- 视频剪辑定位:快速跳转至某句话所在位置
- 字幕同步:SRT 文件直接导入 Premiere/Final Cut Pro
- 会议纪要标注:回溯关键发言时间节点
6. 常见问题与解决方案
Q1:识别结果不准确怎么办?
解决方法:
- 确认选择了正确的识别语言(如中文选
zh) - 提升音频质量:使用 16kHz 单声道录音
- 减少背景噪音,必要时先做降噪处理
- 尝试切换为
Paraformer-Large模型
Q2:识别速度慢如何优化?
可能原因:
- 使用了 CPU 模式
- 音频过长或模型过大
优化建议:
- 启用 CUDA 加速(需 NVIDIA 显卡)
- 切换至
SenseVoice-Small模型 - 分段处理超过 5 分钟的音频
Q3:无法上传音频文件?
排查步骤:
- 检查文件格式是否支持(推荐 MP3/WAV)
- 文件大小是否超过 100MB 限制
- 浏览器是否阻塞了上传请求(尝试 Chrome/Firefox)
Q4:录音没有声音?
检查项:
- 浏览器是否授予麦克风权限
- 系统麦克风是否被其他应用占用
- 麦克风硬件是否正常(可在系统设置中测试)
Q5:识别结果出现乱码?
应对措施:
- 确保音频编码正确(避免特殊压缩格式)
- 更换为标准 WAV 或 MP3 格式
- 检查语言设置是否匹配音频内容
Q6:如何进一步提升识别准确率?
综合建议:
- 使用高质量录音设备(16kHz 采样率)
- 保持安静环境,减少回声与噪声
- 发音清晰,避免过快语速
- 合理启用 VAD 与 PUNC 功能
- 对专业术语可通过热词增强(需定制模型)
7. 服务管理与退出
7.1 停止 WebUI 服务
在终端中按下:
Ctrl + C或执行命令终止容器:
docker stop funasr-webui也可通过进程杀掉服务:
pkill -f "python.*app.main"7.2 快捷键汇总
| 操作 | 快捷键 |
|---|---|
| 停止服务 | Ctrl + C |
| 刷新页面 | F5 或 Ctrl + R |
| 复制文本 | Ctrl + C |
8. 技术支持与更新日志
技术支持
- 开发者:科哥
- 联系方式:微信 312088415
- 反馈要求:请提供完整操作步骤、错误截图及日志信息
更新日志(v1.0.0 - 2026-01-04)
- ✅ 首次发布版本
- ✅ 支持中文语音识别(Paraformer + N-gram LM)
- ✅ 兼容多种音频格式上传
- ✅ 内置浏览器录音功能
- ✅ 支持 TXT/JSON/SRT 多格式导出
- ✅ 紫蓝渐变主题 UI 设计
9. 总结
本文详细介绍了基于“科哥”二次开发的 FunASR 镜像的完整使用流程,涵盖:
- 本地部署与容器启动
- WebUI 界面各模块功能解析
- 两种识别方式(上传文件 & 实时录音)的操作步骤
- 结果查看与多格式导出
- 常见问题排查与性能优化建议
该镜像极大降低了 FunASR 的使用门槛,无需编写代码即可实现高精度中文语音转写,特别适合教育、媒体、会议记录等场景的快速落地。
通过合理配置模型、设备与参数,可在准确率与响应速度之间取得最佳平衡,满足不同业务需求。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。