实时协作翻译平台：HY-MT1.5-1.8B WebSocket集成教程

1. 引言

随着全球化进程的加速，跨语言沟通已成为企业、开发者乃至个人日常工作的核心需求。传统的翻译服务往往依赖云端API，存在延迟高、隐私泄露风险和网络依赖等问题。为应对这些挑战，边缘可部署、低延迟、高性能的本地化翻译模型成为关键解决方案。

混元翻译模型（Hunyuan-MT）系列中的HY-MT1.5-1.8B正是为此类场景量身打造。该模型在保持轻量化的同时实现了接近大模型的翻译质量，特别适合实时协作翻译平台的应用。结合vLLM的高效推理能力与Chainlit的交互式前端框架，我们可以通过 WebSocket 实现低延迟、双向通信的实时翻译系统。

本教程将带你从零开始搭建一个基于 HY-MT1.5-1.8B 的实时协作翻译平台，涵盖模型部署、WebSocket 集成、前后端联动及性能优化等完整工程实践路径。

2. 技术选型与架构设计

2.1 核心组件说明

组件	功能
HY-MT1.5-1.8B	轻量级多语言翻译模型，支持33种语言互译，含民族语言变体
vLLM	高性能大模型推理引擎，提供连续批处理（continuous batching）和PagedAttention优化
Chainlit	类似LangChain的可视化交互框架，支持自定义UI与异步通信
WebSocket	双向实时通信协议，用于实现“输入即翻译”的流式响应

2.2 系统架构图

[用户浏览器] ↓ (WebSocket) [Chainlit 前端] ↓ (HTTP/WebSocket) [Chainlit 后端] ↓ (async HTTP POST) [vLLM 推理服务] ↓ (模型推理) [GPU 加速翻译] ↑ [返回翻译结果流]

整个系统采用分层解耦设计： -前端层：Chainlit 提供简洁对话界面 -通信层：WebSocket 支持实时文本流传输 -服务层：vLLM 托管模型并提供/generate接口 -模型层：量化后的 HY-MT1.5-1.8B 在消费级GPU上运行流畅

3. 模型部署：使用 vLLM 部署 HY-MT1.5-1.8B

3.1 环境准备

确保已安装以下依赖：

pip install vllm chainlit torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu121

推荐环境： - GPU: NVIDIA RTX 3090 / 4090 或 A10G（至少24GB显存） - Python: 3.10+ - CUDA: 12.1+

3.2 启动 vLLM 服务

执行以下命令启动模型服务：

python -m vllm.entrypoints.openai.api_server \ --model Tencent-Hunyuan/HY-MT1.5-1.8B \ --tensor-parallel-size 1 \ --dtype half \ --quantization awq \ --max-model-len 4096 \ --port 8000

说明： ---quantization awq使用AWQ量化技术，将模型压缩至约1.2GB显存占用 ---max-model-len 4096支持长文本上下文翻译 - 接口兼容 OpenAI 格式，便于后续集成

服务启动后，默认监听http://localhost:8000，可通过/v1/completions发起翻译请求。

4. 构建 Chainlit 前端应用

4.1 初始化 Chainlit 项目

创建项目目录并初始化：

mkdir hy_mt_websocket && cd hy_mt_websocket chainlit create-project .

生成主文件app.py。

4.2 实现 WebSocket 流式翻译逻辑

修改app.py内容如下：

import chainlit as cl import requests from typing import Dict, Any import json # vLLM 服务地址 VLLM_ENDPOINT = "http://localhost:8000/v1/completions" @cl.on_chat_start async def start(): cl.user_session.set("history", []) await cl.Message(content="欢迎使用混元实时翻译系统！请输入要翻译的文本。").send() @cl.step(type="tool") async def call_vllm_api(prompt: str): headers = {"Content-Type": "application/json"} data = { "model": "Tencent-Hunyuan/HY-MT1.5-1.8B", "prompt": prompt, "max_tokens": 512, "temperature": 0.1, "stream": True # 开启流式输出 } try: with requests.post(VLLM_ENDPOINT, json=data, headers=headers, stream=True) as r: if r.status_code == 200: translation = "" msg = cl.Message(content="") for line in r.iter_lines(): if line: line_str = line.decode("utf-8").strip() if line_str.startswith("data:"): payload_str = line_str[5:].strip() if payload_str == "[DONE]": break try: payload = json.loads(payload_str) token = payload["choices"][0]["text"] translation += token await msg.stream_token(token) except: continue await msg.send() return translation else: error_msg = f"调用失败，状态码: {r.status_code}" await cl.Message(content=error_msg).send() return None except Exception as e: await cl.Message(content=f"连接错误: {str(e)}").send() return None @cl.on_message async def main(message: cl.Message): user_input = message.content.strip() history = cl.user_session.get("history") # type: list # 构造翻译指令 prompt = f"请将以下中文文本翻译为英文：\n{user_input}\n仅输出翻译结果，不要添加解释。" # 调用模型 result = await call_vllm_api(prompt) if result: history.append({"input": user_input, "output": result}) cl.user_session.set("history", history)

关键点解析： -stream=True启用流式响应，实现“边生成边显示” -iter_lines()处理 Server-Sent Events (SSE) 格式的流数据 -msg.stream_token(token)实时推送字符到前端

5. 运行与验证

5.1 启动服务

分别启动两个终端：

终端1：运行 vLLM 服务

python -m vllm.entrypoints.openai.api_server \ --model Tencent-Hunyuan/HY-MT1.5-1.8B \ --quantization awq \ --dtype half \ --port 8000

终端2：运行 Chainlit 应用

chainlit run app.py -w

访问http://localhost:8080即可打开前端页面。

5.2 功能测试

输入示例：

将下面中文文本翻译为英文：我爱你

预期输出（逐字流式呈现）：

I love you

如界面能实现实时逐字输出，则表示 WebSocket 集成成功。

6. 性能优化建议

6.1 显存与速度优化

优化项	方法	效果
量化	AWQ/GPTQ 4bit	显存降低60%，推理速度提升30%
批处理	设置`--max-num-seqs 32`	提升吞吐量，适合多用户并发
缓存	启用 KV Cache	减少重复计算，加快响应