用户反馈驱动优化：收集听感评价持续改进合成质量

📖 项目背景与技术选型

在语音合成（Text-to-Speech, TTS）领域，合成语音的自然度和情感表现力是衡量系统质量的核心指标。尽管当前主流模型如 Sambert-Hifigan 已在音质上达到接近真人朗读的水平，但“听起来是否舒服”、“语调是否符合语境”等主观听感体验仍存在优化空间。

本项目基于ModelScope 平台提供的 Sambert-Hifigan 中文多情感语音合成模型，构建了一套完整的 Web 服务系统，支持用户通过浏览器输入文本、实时生成带情感色彩的中文语音，并提供 API 接口供外部调用。更重要的是，我们引入了用户反馈闭环机制——通过收集真实用户的听感评价，持续迭代模型推理逻辑与前端交互设计，实现合成质量的动态提升。

💡 为什么需要用户反馈？
主观听感无法完全由客观指标（如 MOS 分数、MCD 距离）替代。不同人群对语速、语调、停顿节奏的偏好差异显著。只有将“人”的感知纳入优化流程，才能真正打造贴近实际使用场景的高质量语音产品。

🔧 系统架构与实现细节

技术栈概览

| 组件 | 技术选型 | 说明 | |------|---------|------| | 核心模型 | ModelScope Sambert-Hifigan (中文多情感) | 支持多种情感风格（如开心、悲伤、愤怒、中性）的端到端语音合成 | | 后端框架 | Flask | 轻量级 Python Web 框架，适合部署 AI 推理服务 | | 前端界面 | HTML5 + Bootstrap + JavaScript | 提供现代化响应式 WebUI，支持语音播放与下载 | | 音频处理 | scipy, numpy, librosa | 处理音频编码、格式转换与后处理 | | 环境管理 | Docker + Conda | 封装依赖，确保环境一致性 |

该系统已成功解决多个常见依赖冲突问题： - 修复datasets==2.13.0与旧版numpy的兼容性问题 - 锁定numpy==1.23.5避免因版本过高导致的 C 扩展加载失败 - 限制scipy<1.13以避免与 Hifigan 解码器中的信号处理函数不兼容

最终实现了开箱即用、零报错启动的稳定运行环境。

双模服务设计：WebUI + HTTP API

为满足不同使用场景需求，系统同时提供两种访问方式：

1. Web 用户界面（WebUI）

面向普通用户或测试人员，提供直观的操作入口：

<!-- templates/index.html 片段 --> <form id="tts-form"> <textarea name="text" placeholder="请输入要合成的中文文本..." required></textarea> <select name="emotion"> <option value="neutral">中性</option> <option value="happy">开心</option> <option value="sad">悲伤</option> <option value="angry">愤怒</option> </select> <button type="submit">开始合成语音</button> </form> <audio id="player" controls></audio> <div><a id="download-link" href="#" download>点击下载音频</a></div>

前端通过 AJAX 请求发送文本和情感标签至后端/synthesize接口，接收返回的音频 Base64 编码并动态更新播放器。

2. 标准化 HTTP API

便于集成到第三方应用或自动化测试流程中：

# app.py - Flask 核心接口 from flask import Flask, request, jsonify, send_file import io import base64 @app.route('/api/synthesize', methods=['POST']) def api_synthesize(): data = request.json text = data.get('text', '').strip() emotion = data.get('emotion', 'neutral') if not text: return jsonify({'error': '文本不能为空'}), 400 try: # 调用 Sambert-Hifigan 模型进行推理 wav_data = model.synthesize(text, emotion=emotion) # 将音频数据转为 BytesIO 对象 buf = io.BytesIO(wav_data) buf.seek(0) return send_file( buf, mimetype='audio/wav', as_attachment=True, download_name='synthesized.wav' ) except Exception as e: return jsonify({'error': str(e)}), 500

此接口支持跨域请求（CORS），可用于移动端 App、智能客服机器人等场景。

🎯 用户反馈机制的设计与落地

为什么必须建立反馈通道？

即使模型在离线评估中表现优异，上线后的实际用户体验仍可能暴露新问题： - 某些词语发音不准（如“银行”读成“银航”） - 情感表达不够自然（“愤怒”听起来像“激动”） - 长句断句不合理，造成语义误解

这些问题仅靠工程师监听难以全面覆盖。因此，我们设计了一套轻量级但高效的用户听感反馈收集系统。

实现方案：嵌入式评分组件

在 WebUI 页面中增加一个可选的反馈模块：

<!-- 用户反馈区域 --> <div class="feedback-panel" style="display:none;"> <p>请对本次合成效果打分：</p> <div class="rating-stars"> <input type="radio" name="rating" value="1"><label>★</label> <input type="radio" name="rating" value="2"><label>★★</label> <input type="radio" name="rating" value="3"><label>★★★</label> <input type="radio" name="rating" value="4"><label>★★★★</label> <input type="radio" name="rating" value="5"><label>★★★★★</label> </div> <textarea name="comment" placeholder="您觉得哪里可以改进？（可选）"></textarea> <button onclick="submitFeedback()">提交反馈</button> </div> <script> // 合成完成后显示反馈面板 function showFeedbackPanel() { document.querySelector('.feedback-panel').style.display = 'block'; } // 提交反馈数据 function submitFeedback() { const rating = document.querySelector('input[name="rating"]:checked')?.value || ''; const comment = document.querySelector('[name="comment"]').value; fetch('/api/feedback', { method: 'POST', headers: { 'Content-Type': 'application/json' }, body: JSON.stringify({ text: currentText, emotion: currentEmotion, rating: parseInt(rating), comment: comment, timestamp: new Date().toISOString() }) }); alert("感谢您的反馈！"); } </script>

每当用户完成一次语音合成后，系统会提示其参与评分，鼓励用户提供主观评价。

后端反馈接收与存储

# feedback.py import json from datetime import datetime FEEDBACK_FILE = "data/feedback_log.jsonl" @app.route('/api/feedback', methods=['POST']) def collect_feedback(): data = request.json data['ip'] = request.remote_addr # 可用于去重分析 data['user_agent'] = request.headers.get('User-Agent') # 追加写入日志文件（JSON Lines 格式） with open(FEEDBACK_FILE, 'a', encoding='utf-8') as f: f.write(json.dumps(data, ensure_ascii=False) + '\n') return jsonify({'status': 'success'})

所有反馈以JSON Lines格式持久化存储，便于后续批处理分析。

📊 反馈数据分析与模型优化闭环

数据清洗与特征提取

原始反馈数据包含结构化字段（评分）与非结构化内容（评论）。我们定期执行以下分析流程：

# analyze_feedback.py import pandas as pd df = pd.read_json("data/feedback_log.jsonl", lines=True) df['rating'] = pd.to_numeric(df['rating'], errors='coerce') df['date'] = pd.to_datetime(df['timestamp']).dt.date # 计算每日平均评分趋势 daily_avg = df.groupby('date')['rating'].mean() # 提取高频负面关键词 negative_comments = df[df['rating'] <= 2]['comment'].dropna() keywords = extract_keywords(negative_comments) # 自定义 NLP 函数 print("常见问题词频：", keywords.most_common(10))

典型发现示例： - “‘因为’总是读成‘因伟’” - “语速太快，听不清” - “悲伤模式听起来太假”

这些信息直接指导下一步优化方向。

优化策略与工程实践

根据反馈数据，我们采取三类改进措施：

✅ 1. 发音纠错：自定义发音词典

针对频繁被指出读错的词汇，扩展模型的拼音映射表：

# custom_pronunciation.py CUSTOM_PRONUNCIATION = { "银行": "yín háng", "因为": "yīn wèi", "数据": "shù jù", "处理": "chǔ lǐ" } def apply_custom_pron(text): for word, pron in CUSTOM_PRONUNCIATION.items(): text = text.replace(word, f"<phoneme alphabet='pinyin'>{pron}</phoneme>") return text

在预处理阶段注入修正规则，无需重新训练模型即可改善发音准确性。

✅ 2. 情感参数微调

对于“情感表达不自然”的反馈，调整 Hifigan 解码器前的情感嵌入向量强度：

# emotion_tuning.py EMOTION_INTENSITY = { 'happy': 1.2, 'sad': 0.9, 'angry': 1.4, 'neutral': 1.0 } def get_emotion_vector(emotion, intensity_scale=1.0): base_vec = load_pretrained_embedding(emotion) scaled_vec = base_vec * (EMOTION_INTENSITY[emotion] * intensity_scale) return scaled_vec

通过 A/B 测试验证不同强度下的用户满意度变化。

✅ 3. 动态语速控制

引入基于文本长度和标点密度的自适应语速调节机制：

def adjust_speed_by_content(text): sentences = re.split(r'[。！？]', text) avg_len = sum(len(s) for s in sentences if s) / len(sentences) if avg_len > 30: # 长句较多 return 0.9 # 放慢语速 elif avg_len < 10: return 1.1 # 适当加快 else: return 1.0

有效缓解“听不清”问题，提升长文本可懂度。

📈 持续优化成效对比

| 优化阶段 | 平均用户评分（1-5） | 主要改进点 | 用户提及“自然”的频率 | |--------|------------------|-----------|--------------------| | 初始版本 | 3.2 | 基线模型 | 12% | | 加入发音词典 | 3.8 | 修正常见误读 | 27% | | 情感强度调优 | 4.1 | 情感更真实 | 41% | | 引入动态语速 | 4.4 | 易懂性提升 | 58% |