听完就想试！这段带情绪标签的语音识别太真实了

1. 引言：让语音识别“听懂”情绪

在传统语音识别技术中，系统的主要任务是将声音信号转化为文字。然而，在真实的人机交互场景中，仅仅“听清”还不够——我们更希望机器能“听懂”说话人的情绪和语境。例如，在客服对话分析、智能会议记录、情感陪伴机器人等应用中，识别出说话人是否开心、愤怒或悲伤，以及背景中是否有掌声、笑声等事件，能够极大提升系统的智能化水平。

本文将带你全面了解该镜像的技术特性、使用方法及实际应用场景，并通过 Gradio WebUI 快速体验其强大功能。

2. 技术亮点解析

2.1 多语言通用识别能力

SenseVoiceSmall 基于阿里巴巴达摩院 iic 开源模型构建，经过大规模多语言数据训练，原生支持以下语种：

中文（zh）
英文（en）
粤语（yue）
日语（ja）
韩语（ko）

更重要的是，模型支持auto 自动语言识别，无需手动指定输入音频的语言类型，即可完成准确判断与转写，适用于跨国会议、多语种播客等复杂场景。

2.2 富文本识别：不只是文字

传统 ASR 模型输出的是纯文本，而 SenseVoiceSmall 实现了“富文本转录”（Rich Transcription），即在文字基础上附加非语言信息，主要包括两大类：

情感标签识别（Emotion Detection）

这些标签可用于客户情绪分析、心理辅导辅助、内容推荐优化等场景。

声音事件检测（Sound Event Detection）

除了人声内容，模型还能感知环境中的关键声音事件： -<|BGM|>：背景音乐 -<|APPLAUSE|>：鼓掌 -<|LAUGHTER|>：笑声 -<|CRY|>：哭泣声

这一能力特别适合用于视频字幕生成、直播内容结构化、课堂互动分析等领域。

核心优势总结：相比 Paraformer 等仅支持基础语音识别的模型，SenseVoiceSmall 提供了更高维度的信息提取能力，使语音处理从“听清”迈向“听懂”。

2.3 极致性能与低延迟推理

SenseVoiceSmall 采用非自回归架构（Non-Autoregressive Architecture），相较于传统的自回归模型（如 Whisper），其推理速度显著提升。实测表明，在 NVIDIA RTX 4090D 显卡上，一段 5 分钟的音频可在3 秒内完成转写，满足实时或近实时的应用需求。

同时，模型内置 VAD（Voice Activity Detection）模块，自动分割静音段，避免无效计算，进一步提升效率。

3. 快速部署与使用指南

3.1 环境依赖说明

本镜像已预装所有必要组件，主要依赖如下：

组件	版本	用途
Python	3.11	运行环境
PyTorch	2.5	深度学习框架
funasr	最新版	语音识别核心库
modelscope	最新版	阿里云 ModelScope 接口
gradio	最新版	Web 可视化界面
ffmpeg	系统级	音频解码支持

无需额外配置，开箱即用。

3.2 启动 Gradio WebUI 服务

镜像默认未自动启动服务时，可通过以下步骤快速部署本地可视化界面。

安装必要库（若缺失）

pip install av gradio

创建`app_sensevoice.py`脚本

import gradio as gr from funasr import AutoModel from funasr.utils.postprocess_utils import rich_transcription_postprocess import os # 初始化模型 model_id = "iic/SenseVoiceSmall" model = AutoModel( model=model_id, trust_remote_code=True, vad_model="fsmn-vad", vad_kwargs={"max_single_segment_time": 30000}, device="cuda:0", # 使用 GPU 加速 ) def sensevoice_process(audio_path, language): if audio_path is None: return "请先上传音频文件" res = model.generate( input=audio_path, cache={}, language=language, use_itn=True, batch_size_s=60, merge_vad=True, merge_length_s=15, ) if len(res) > 0: raw_text = res[0]["text"] clean_text = rich_transcription_postprocess(raw_text) return clean_text else: return "识别失败" # 构建 Web 界面 with gr.Blocks(title="SenseVoice 多语言语音识别") as demo: gr.Markdown("# 🎙️ SenseVoice 智能语音识别控制台") gr.Markdown(""" **功能特色：** - 🚀 **多语言支持**：中、英、日、韩、粤语自动识别。 - 🎭 **情感识别**：自动检测音频中的开心、愤怒、悲伤等情绪。 - 🎸 **声音事件**：自动标注 BGM、掌声、笑声、哭声等。 """) with gr.Row(): with gr.Column(): audio_input = gr.Audio(type="filepath", label="上传音频或直接录音") lang_dropdown = gr.Dropdown( choices=["auto", "zh", "en", "yue", "ja", "ko"], value="auto", label="语言选择 (auto 为自动识别)" ) submit_btn = gr.Button("开始 AI 识别", variant="primary") with gr.Column(): text_output = gr.Textbox(label="识别结果 (含情感与事件标签)", lines=15) submit_btn.click( fn=sensevoice_process, inputs=[audio_input, lang_dropdown], outputs=text_output ) demo.launch(server_name="0.0.0.0", server_port=6006)

启动服务

python app_sensevoice.py

3.3 本地访问方式

由于平台安全策略限制，需通过 SSH 隧道转发端口：

ssh -L 6006:127.0.0.1:6006 -p [端口号] root@[SSH地址]

连接成功后，在本地浏览器打开：

👉 http://127.0.0.1:6006

即可进入交互式语音识别页面，上传音频并查看带情绪标签的识别结果。

4. 输出格式与后处理机制

4.1 原始输出示例

一段包含笑声和背景音乐的中文语音，原始识别结果可能如下：

你好呀 <|HAPPY|>，今天天气真不错 <|LAUGHTER|><|BGM|>，我们一起去公园吧？

4.2 使用`rich_transcription_postprocess`清洗结果

FunASR 提供了内置工具函数rich_transcription_postprocess，可将上述标签转换为更易读的形式，例如：

from funasr.utils.postprocess_utils import rich_transcription_postprocess raw_text = "你好呀 <|HAPPY|>，今天天气真不错 <|LAUGHTER|><|BGM|>..." clean_text = rich_transcription_postprocess(raw_text) print(clean_text) # 输出：你好呀 [开心]，今天天气真不错 [笑声][背景音乐]...

该函数会自动映射标签为中文描述，便于下游系统展示或分析。

5. 应用场景与工程建议

5.1 典型应用场景

场景	应用价值
智能客服质检	自动识别客户是否愤怒、不满，触发预警机制
视频字幕生成	标注笑声、掌声位置，增强字幕表现力
教育评估系统	分析学生回答时的情绪变化，辅助教学反馈
心理健康助手	检测用户语音中的悲伤、低落情绪，提供干预建议
直播内容分析	结构化识别高潮点（如掌声、欢呼），用于剪辑推荐

5.2 工程实践建议

音频预处理建议
推荐使用 16kHz 采样率的 WAV 或 MP3 文件
若输入为其他采样率，模型会通过av或ffmpeg自动重采样，但可能影响精度
GPU 加速优化
确保device="cuda:0"正确指向可用 GPU
批量处理长音频时，可通过调整batch_size_s控制显存占用
生产环境部署建议
对于高并发场景，建议封装为 FastAPI 服务，结合批处理队列提升吞吐
可考虑导出 ONNX 模型以降低部署门槛
结果解析自动化
可编写正则规则提取情感标签，生成结构化 JSON 输出
示例字段设计：json { "text": "你好呀，今天天气真不错", "emotion": "HAPPY", "events": ["LAUGHTER", "BGM"], "language": "zh" }