SenseVoice Small部署手册：Kubernetes方案

1. 引言

随着语音识别技术的快速发展，多语言、情感与事件标签识别能力成为智能语音交互系统的重要组成部分。SenseVoice Small 是基于 FunAudioLLM/SenseVoice 模型进行二次开发的轻量级语音理解系统，由开发者“科哥”优化构建，支持高精度语音转文字、自动情感识别（如开心、愤怒、悲伤等）以及常见音频事件检测（如掌声、笑声、背景音乐等），适用于客服质检、内容分析、情绪感知等多种场景。

在实际生产环境中，为实现服务的高可用性、弹性伸缩与统一运维管理，将 SenseVoice Small 部署于 Kubernetes 平台成为理想选择。本文档提供一套完整、可落地的Kubernetes 部署方案，涵盖镜像构建、资源配置、服务暴露、持久化存储及健康检查等关键环节，帮助开发者快速完成从本地模型到云原生服务的迁移。

2. 架构设计与部署准备

2.1 系统架构概览

本方案采用标准的 Kubernetes 微服务架构模式，核心组件包括：

Deployment：管理 SenseVoice WebUI 应用副本，确保稳定运行
Service：对外暴露 HTTP 服务端口（7860）
ConfigMap：挂载启动脚本和配置文件
PersistentVolumeClaim (PVC)：用于保存上传音频与日志数据
NodeSelector/Tolerations：可选地调度至具备 GPU 资源的节点

整体部署结构如下：

+------------------+ +---------------------+ | Client Browser | <---> | Kubernetes Service | +------------------+ +----------+----------+ | +-------v--------+ | Pod (Deployment) | | - sensevoice-webui | | - volume: audio-log-pvc | +--------------------+

2.2 前置条件

部署前需确认以下环境已就绪：

条件	说明
Kubernetes 集群	版本 ≥ v1.22，可通过 kubeadm、k3s 或云厂商托管集群搭建
kubectl 工具	已配置并能正常连接集群
容器运行时	Docker 或 containerd
存储插件	支持动态卷供给（如 Rook Ceph、NFS Subdir External Provisioner）
可选 GPU 支持	若需加速推理，应安装 NVIDIA Device Plugin 和驱动

3. 镜像构建与推送

3.1 构建基础镜像

假设项目目录结构如下：

sensevoice-k8s-deploy/ ├── Dockerfile ├── run.sh └── config/ └── app.conf

编写Dockerfile内容如下：

FROM pytorch/pytorch:2.1.0-cuda11.8-runtime WORKDIR /app COPY requirements.txt . RUN pip install --no-cache-dir -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple COPY . . RUN chmod +x /root/run.sh EXPOSE 7860 CMD ["/bin/bash", "/root/run.sh"]

其中requirements.txt包含必要依赖：

gradio>=4.0 torch==2.1.0 funasr==1.0.0 modelscope==1.13.0

执行镜像构建：

docker build -t sensevoice-small:latest .

3.2 推送至镜像仓库

建议使用私有或公共镜像仓库（如 Harbor、Docker Hub、阿里云容器镜像服务）：

docker tag sensevoice-small:latest your-registry/sensevoice-small:v1.0 docker push your-registry/sensevoice-small:v1.0

后续 Deployment 中将引用该远程镜像。

4. Kubernetes资源定义

4.1 创建命名空间

为隔离资源，创建专用命名空间：

apiVersion: v1 kind: Namespace metadata: name: sensevoice

应用命令：

kubectl apply -f namespace.yaml

4.2 配置 ConfigMap

将启动脚本run.sh和配置文件通过 ConfigMap 注入容器：

apiVersion: v1 kind: ConfigMap metadata: name: sensevoice-config namespace: sensevoice data: run.sh: | #!/bin/bash echo "Starting SenseVoice WebUI..." python app.py --host 0.0.0.0 --port 7860 --allow-origin "*" app.conf: | model_path = /models/sensevoice-small output_dir = /data/output

注意：app.py应包含 Gradio 启动逻辑，并加载预训练模型。

4.3 定义 PersistentVolumeClaim

用于持久化用户上传的音频文件和识别结果日志：

apiVersion: v1 kind: PersistentVolumeClaim metadata: name: audio-log-pvc namespace: sensevoice spec: accessModes: - ReadWriteOnce resources: requests: storage: 10Gi storageClassName: nfs-sc # 根据实际存储类调整

4.4 编写 Deployment

apiVersion: apps/v1 kind: Deployment metadata: name: sensevoice-webui namespace: sensevoice labels: app: sensevoice-webui spec: replicas: 1 selector: matchLabels: app: sensevoice-webui template: metadata: labels: app: sensevoice-webui spec: containers: - name: webui image: your-registry/sensevoice-small:v1.0 ports: - containerPort: 7860 env: - name: MODELSCOPE_CACHE value: "/models" volumeMounts: - name: config-volume mountPath: /root/run.sh subPath: run.sh - name:>apiVersion: v1 kind: Service metadata: name: sensevoice-service namespace: sensevoice annotations: service.beta.kubernetes.io/alibaba-cloud-loadbalancer-address-type: internet spec: type: LoadBalancer selector: app: sensevoice-webui ports: - protocol: TCP port: 80 targetPort: 7860

在公有云环境下，LoadBalancer类型会自动创建公网 IP；内网环境可改为NodePort或结合 Ingress 使用。

5. 部署与验证

5.1 应用所有资源配置

依次执行：

kubectl apply -f namespace.yaml kubectl apply -f configmap.yaml kubectl apply -f pvc.yaml kubectl apply -f deployment.yaml kubectl apply -f service.yaml

5.2 查看部署状态

kubectl get pods -n sensevoice -w

等待 Pod 进入 Running 状态，并查看日志确认服务启动成功：

kubectl logs -f deploy/sensevoice-webui -n sensevoice

预期输出中应包含：

Running on local URL: http://0.0.0.0:7860

5.3 获取访问地址

查询 Service 外部 IP：

kubectl get svc sensevoice-service -n sensevoice

输出示例：

NAME TYPE CLUSTER-IP EXTERNAL-IP PORT(S) AGE sensevoice-service LoadBalancer 10.96.123.45 47.98.123.45 80:31234/TCP 5m

在浏览器中访问：http://47.98.123.45

若一切正常，将看到 SenseVoice WebUI 界面，标题为 “SenseVoice WebUI”，底部显示“webUI二次开发 by 科哥”。

6. 运行时配置与优化建议

6.1 批处理与性能调优

batch_size_s：默认设置为 60 秒动态批处理，可根据负载调整。高并发下可降低至 30 秒以减少延迟。
GPU 加速：确保 CUDA 环境正确安装，且 PyTorch 能识别 GPU 设备。可在日志中添加torch.cuda.is_available()验证。
水平扩展限制：由于 Gradio 不支持分布式会话共享，目前不建议多副本部署。如需扩展，请前置使用 WebSocket 路由或改造成 API 模式。

6.2 日志与监控集成

推荐将/data/logs目录挂载至 PVC，并接入集中式日志系统（如 ELK 或 Loki）：

volumeMounts: - name:>initContainers: - name: preload-model image: busybox command: ['sh', '-c', 'wget -O /models/model.zip http://internal-repo/model.zip && unzip /models/model.zip -d /models/'] volumeMounts: - name: models-volume mountPath: /models