FSMN VAD API接口扩展：RESTful服务封装思路

1. 背景与需求分析

1.1 FSMN VAD模型简介

FSMN VAD（Feedforward Sequential Memory Neural Network - Voice Activity Detection）是阿里达摩院在FunASR项目中开源的语音活动检测模型，具备高精度、低延迟和小模型体积的特点。该模型广泛应用于会议录音切分、电话语音分析、音频质量检测等场景。

当前系统通过Gradio构建了WebUI界面，支持单文件上传与参数调节，但其交互方式主要面向本地调试和人工操作，缺乏对自动化流程和第三方系统的集成能力。随着实际业务中批量处理、流水线调度和微服务架构的需求增长，亟需将VAD功能以API形式对外暴露。

1.2 现有架构局限性

目前基于Gradio的前端应用存在以下限制：

非标准接口：使用Gradio自定义通信协议，难以被程序化调用
耦合度高：前后端逻辑混合，不利于模块复用
无状态管理：不支持异步任务、结果缓存或回调机制
部署灵活性差：无法独立部署为后端服务供多客户端共享

因此，构建一个标准化的RESTful API服务层，成为提升系统工程化水平的关键步骤。

2. RESTful服务设计原则

2.1 接口设计核心目标

本次API扩展旨在实现如下目标：

✅ 提供标准HTTP接口，便于各类语言客户端调用
✅ 支持同步与异步两种模式，适应不同响应时间要求
✅ 实现统一的数据格式（JSON输入/输出）
✅ 兼容现有VAD参数体系，确保行为一致性
✅ 易于集成到CI/CD、工作流引擎或AI推理平台

2.2 资源建模与URL设计

遵循REST规范，将“语音检测任务”抽象为资源/vad/tasks，采用以下路由结构：

方法	路径	功能说明
POST	`/api/v1/vad/detect`	同步执行语音检测
POST	`/api/v1/vad/tasks`	创建异步检测任务
GET	`/api/v1/vad/tasks/{task_id}`	查询任务状态与结果
GET	`/api/v1/health`	健康检查接口

设计说明：同步接口适用于短音频实时处理；异步接口用于长音频或批量任务，避免请求超时。

3. 核心实现方案

3.1 技术选型与框架选择

选用轻量级Python Web框架FastAPI作为API网关，主要原因包括：

自动生成OpenAPI文档（Swagger UI）
内置Pydantic数据校验，保障输入合法性
异步支持（async/await），提升并发性能
类型提示友好，降低维护成本

同时保留原FunASR的推理逻辑，仅替换前端交互层，保证算法行为不变。

from fastapi import FastAPI, File, UploadFile, Form from pydantic import BaseModel from typing import Optional import soundfile as sf import numpy as np import io import uuid import asyncio app = FastAPI(title="FSMN VAD API", version="1.0")

3.2 请求体与响应结构定义

输入参数模型

class VADRequest(BaseModel): speech_noise_thres: float = 0.6 max_end_silence_time: int = 800

输出结果结构

{ "status": "success", "task_id": "abc123", "result": [ {"start": 70, "end": 2340, "confidence": 1.0}, {"start": 2590, "end": 5180, "confidence": 1.0} ] }

错误响应统一格式

{ "status": "error", "message": "Invalid audio format" }

3.3 文件上传与音频解码处理

API需支持多种常见音频格式（WAV, MP3, FLAC, OGG），利用soundfile和libsndfile完成解码，并强制转换为16kHz单声道PCM：

@app.post("/api/v1/vad/detect") async def detect_vad( audio_file: UploadFile = File(...), speech_noise_thres: float = Form(0.6), max_end_silence_time: int = Form(800) ): # 验证文件类型 if not audio_file.filename.lower().endswith(('.wav', '.mp3', '.flac', '.ogg')): return {"status": "error", "message": "Unsupported file format"} try: content = await audio_file.read() audio_data, sample_rate = sf.read(io.BytesIO(content)) # 多通道转单通道 if len(audio_data.shape) > 1: audio_data = audio_data.mean(axis=1) # 重采样至16kHz（若需要） if sample_rate != 16000: import librosa audio_data = librosa.resample(audio_data, orig_sr=sample_rate, target_sr=16000) except Exception as e: return {"status": "error", "message": f"Audio decode failed: {str(e)}"}

3.4 调用FSMN VAD模型推理

封装FunASR的VAD接口，传入预处理后的音频数据及用户参数：

from funasr import AutoModel # 初始化模型（全局加载一次） vad_model = AutoModel(model="fsmn_vad") def run_vad_inference(audio_data, speech_noise_thres=0.6, max_end_silence_time=800): res = vad_model.generate( input=audio_data, param_dict={ "speech_noise_thres": speech_noise_thres, "max_end_silence_time": max_end_silence_time } ) return res[0]["value"] # 返回语音片段列表

整合进API主流程：

# 执行VAD检测 try: segments = run_vad_inference( audio_data, speech_noise_thres=speech_noise_thres, max_end_silence_time=max_end_silence_time ) return { "status": "success", "task_id": str(uuid.uuid4()), "result": segments } except Exception as e: return {"status": "error", "message": f"VAD inference error: {str(e)}"}

4. 异步任务系统设计

4.1 任务队列与状态管理

对于长音频或高负载场景，引入异步任务机制，使用内存字典模拟任务存储（生产环境可替换为Redis）：

tasks_db = {} class TaskStatus: PENDING = "pending" PROCESSING = "processing" DONE = "done" FAILED = "failed"

创建异步任务接口：

@app.post("/api/v1/vad/tasks") async def create_vad_task( audio_file: UploadFile = File(...), speech_noise_thres: float = Form(0.6), max_end_silence_time: int = Form(800) ): task_id = str(uuid.uuid4()) tasks_db[task_id] = { "status": TaskStatus.PENDING, "created_at": asyncio.get_event_loop().time() } # 在后台任务中处理 asyncio.create_task(run_vad_background(task_id, audio_file, speech_noise_thres, max_end_silence_time)) return {"task_id": task_id, "status": "pending", "href": f"/api/v1/vad/tasks/{task_id}"}

后台处理函数：

async def run_vad_background(task_id, audio_file, speech_noise_thres, max_end_silence_time): try: tasks_db[task_id]["status"] = TaskStatus.PROCESSING content = await audio_file.read() audio_data, sample_rate = sf.read(io.BytesIO(content)) if len(audio_data.shape) > 1: audio_data = audio_data.mean(axis=1) if sample_rate != 16000: audio_data = librosa.resample(audio_data, orig_sr=sample_rate, target_sr=16000) segments = run_vad_inference(audio_data, speech_noise_thres, max_end_silence_time) tasks_db[task_id].update({ "status": TaskStatus.DONE, "result": segments, "duration": len(audio_data) / 16000 }) except Exception as e: tasks_db[task_id]["status"] = TaskStatus.FAILED tasks_db[task_id]["error"] = str(e)

查询任务状态接口：

@app.get("/api/v1/vad/tasks/{task_id}") async def get_task_status(task_id: str): task = tasks_db.get(task_id) if not task: return {"status": "error", "message": "Task not found"} return task

5. 性能优化与工程建议

5.1 缓存策略

对相同音频MD5值的任务进行结果缓存，避免重复计算：

import hashlib def compute_audio_md5(audio_data): return hashlib.md5(audio_data.tobytes()).hexdigest() # 在处理前检查缓存 cache_db = {} md5 = compute_audio_md5(audio_data) if md5 in cache_db and cache_db[md5]["params"] == (speech_noise_thres, max_end_silence_time): return cache_db[md5]["result"]

5.2 并发控制

设置最大并发数防止资源耗尽：

semaphore = asyncio.Semaphore(4) # 最多同时处理4个任务 async def run_vad_background(...): async with semaphore: # 执行处理逻辑

5.3 日志与监控

添加结构化日志记录关键事件：

import logging logging.basicConfig(level=logging.INFO) logger = logging.getLogger(__name__) logger.info(f"VAD task started: {task_id}, file={filename}")

暴露Prometheus指标端点可用于监控QPS、延迟、错误率等。

6. 使用示例与集成方式

6.1 同步调用示例（curl）

curl -X POST http://localhost:8000/api/v1/vad/detect \ -F "audio_file=@test.wav" \ -F "speech_noise_thres=0.6" \ -F "max_end_silence_time=800"

6.2 异步调用流程

# 提交任务 curl -X POST http://localhost:8000/api/v1/vad/tasks \ -F "audio_file=@long_recording.wav" # 响应 {"task_id": "abc123", "status": "pending", ...} # 轮询结果 curl http://localhost:8000/api/v1/vad/tasks/abc123

6.3 Python客户端封装

import requests def detect_vad_sync(audio_path): with open(audio_path, 'rb') as f: files = {'audio_file': f} data = { 'speech_noise_thres': 0.6, 'max_end_silence_time': 800 } resp = requests.post('http://localhost:8000/api/v1/vad/detect', files=files, data=data) return resp.json()