DeepSeek-R1-Distill-Qwen-1.5B实战：智能诗歌生成系统开发

1. 引言

1.1 业务场景描述

随着大语言模型在创意内容生成领域的广泛应用，自动化诗歌创作正逐步从实验性探索走向实际产品落地。传统诗歌创作依赖于作者的文化积累与情感表达能力，而基于深度学习的语言模型则能够通过大规模语料训练，模拟人类的创作风格，实现高质量、多风格的诗歌自动生成。

在教育、文化娱乐、数字艺术等场景中，用户对个性化、即时性的诗歌内容需求日益增长。例如，在语文教学中，教师希望借助AI辅助讲解古诗韵律；在社交平台，用户希望通过输入关键词快速生成一首现代诗用于分享。这些需求催生了对轻量级、高响应速度、可本地部署的诗歌生成系统的迫切需要。

1.2 痛点分析

当前主流的大模型如Qwen、LLaMA系列虽具备强大的文本生成能力，但在以下方面存在明显不足：

推理延迟高：参数量过大（如7B以上）导致GPU显存占用高，难以在消费级设备上高效运行。
部署复杂：依赖复杂的分布式推理框架，缺乏开箱即用的Web服务支持。
生成控制弱：温度、top-p等参数调节不直观，难以为特定文体（如五言绝句、现代自由诗）定制化输出。

此外，通用模型在中文古典诗词的格律、押韵、意境营造等方面表现不稳定，常出现平仄错乱、意象堆砌等问题。

1.3 方案预告

本文将介绍如何基于DeepSeek-R1-Distill-Qwen-1.5B模型构建一个面向中文诗歌生成的智能系统。该模型是通过对 DeepSeek-R1 强化学习蒸馏技术优化后的 Qwen 1.5B 版本，在保持较小参数规模的同时显著提升了逻辑与结构化文本生成能力。

我们将在 GPU 环境下完成模型加载、推理接口封装，并使用 Gradio 构建交互式 Web 应用，最终实现一个支持多种诗歌体裁、可调参、低延迟的本地化诗歌生成服务。

2. 技术方案选型

2.1 模型选择依据

模型	参数量	推理速度（tokens/s）	显存占用（FP16）	中文诗歌生成质量
Qwen-1.8B	1.8B	~45	3.6GB	良好
LLaMA-3-8B-Instruct	8B	~22	14GB	优秀但慢
DeepSeek-R1-Distill-Qwen-1.5B	1.5B	~58	2.9GB	优秀（强化逻辑与结构）

从上表可见，DeepSeek-R1-Distill-Qwen-1.5B在三项关键指标中均表现出色：

参数量最小，适合边缘设备或资源受限环境；
推理速度最快，得益于蒸馏压缩和CUDA优化；
生成质量最优，尤其在“起承转合”类结构化文本（如律诗）中表现突出。

其核心优势在于通过强化学习数据蒸馏机制，增强了模型对指令理解与长程逻辑连贯性的建模能力，这正是诗歌创作所需的关键特性。

2.2 技术栈设计

系统整体架构分为三层：

[前端交互层] —— Gradio UI ↓ (HTTP API) [服务逻辑层] —— Python Flask + Transformers Pipeline ↓ (Model Inference) [模型执行层] —— DeepSeek-R1-Distill-Qwen-1.5B (CUDA)

各层职责如下：

前端交互层：提供简洁输入界面，支持风格选择（古风/现代）、长度控制、关键词引导等功能；
服务逻辑层：接收请求，组织 prompt 模板，调用模型 pipeline 进行推理；
模型执行层：在 GPU 上加载模型并执行前向推理，返回生成结果。

3. 实现步骤详解

3.1 环境准备

确保系统满足以下基础环境要求：

# 检查 CUDA 是否可用 nvidia-smi # 创建虚拟环境 python3 -m venv poetry_env source poetry_env/bin/activate # 安装依赖 pip install torch==2.9.1+cu128 torchvision==0.14.1+cu128 --extra-index-url https://download.pytorch.org/whl/cu128 pip install transformers==4.57.3 gradio==6.2.0

注意：必须安装与 CUDA 12.8 兼容的 PyTorch 版本，否则无法启用 GPU 加速。

3.2 模型下载与缓存配置

使用 Hugging Face CLI 下载模型至本地缓存目录：

huggingface-cli download deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B \ --local-dir /root/.cache/huggingface/deepseek-ai/DeepSeek-R1-Distill-Qwen-1___5B \ --local-dir-use-symlinks False

该路径需与代码中from_pretrained()调用一致，避免重复下载。

3.3 核心代码实现

以下是完整的app.py文件实现：

import os os.environ["TOKENIZERS_PARALLELISM"] = "false" import torch from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline import gradio as gr # ================== 配置区 ================== MODEL_PATH = "/root/.cache/huggingface/deepseek-ai/DeepSeek-R1-Distill-Qwen-1___5B" DEVICE = "cuda" if torch.cuda.is_available() else "cpu" MAX_NEW_TOKENS = 2048 TEMPERATURE = 0.6 TOP_P = 0.95 # ================== 模型加载 ================== tokenizer = AutoTokenizer.from_pretrained(MODEL_PATH, trust_remote_code=True) model = AutoModelForCausalLM.from_pretrained( MODEL_PATH, torch_dtype=torch.float16, device_map="auto", trust_remote_code=True, local_files_only=True ) generator = pipeline( "text-generation", model=model, tokenizer=tokenizer, device=0 if DEVICE == "cuda" else -1 ) # ================== 提示词模板 ================== PROMPT_TEMPLATES = { "gufeng": "你是一位精通唐宋诗词的诗人，请根据以下关键词创作一首七言绝句：{keywords}。\n要求：押韵工整，意境深远，使用古典词汇。", "xiandai": "请以抒情的方式写一首现代诗，主题围绕：{keywords}。\n要求：语言优美，富有想象力，分行清晰，避免陈词滥调。", "ci": "模仿李清照风格填写一首《如梦令》，内容关于：{keywords}。\n要求：符合词牌格律，情感细腻，用词典雅。" } # ================== 生成函数 ================== def generate_poem(keywords, genre, temperature=TEMPERATURE): if not keywords.strip(): return "请输入关键词" prompt = PROMPT_TEMPLATES[genre].format(keywords=keywords) with torch.no_grad(): result = generator( prompt, max_new_tokens=MAX_NEW_TOKENS, temperature=temperature, top_p=TOP_P, do_sample=True, num_return_sequences=1, pad_token_id=tokenizer.eos_token_id ) full_text = result[0]["generated_text"] # 去除输入部分，只保留生成内容 generated_part = full_text[len(prompt):].strip() return f"```\n{generated_part}\n```" # ================== Gradio 界面 ================== demo = gr.Interface( fn=generate_poem, inputs=[ gr.Textbox(label="创作关键词（如：秋夜、孤舟、明月）"), gr.Radio(["gufeng", "xiandai", "ci"], label="诗歌类型", value="gufeng"), gr.Slider(0.1, 1.0, value=TEMPERATURE, label="创造性（温度）") ], outputs=gr.Markdown(label="生成结果"), title="🎨 AI诗歌工坊：DeepSeek-R1-Distill-Qwen-1.5B 驱动的智能创作系统", description="输入关键词，选择风格，让AI为你写一首诗。", examples=[ ["春风、桃花、小桥", "gufeng", 0.6], ["城市、孤独、地铁", "xiandai", 0.7], ["离别、细雨、黄昏", "ci", 0.5] ] ) if __name__ == "__main__": demo.launch(server_name="0.0.0.0", server_port=7860, share=False)

3.4 代码解析

（1）模型加载优化

device_map="auto"

自动分配模型层到可用设备（GPU/CPU），充分利用显存资源。

（2）提示词工程设计

采用结构化 prompt 模板，明确指定：

角色设定（“你是一位精通唐宋诗词的诗人”）
输出格式要求（“七言绝句”、“押韵工整”）
风格限制（“模仿李清照”）

有效提升生成文本的专业性和一致性。

（3）去重处理

full_text[len(prompt):]

截取仅由模型生成的部分，避免回显输入内容。

（4）Gradio 示例预设

提供典型输入样例，降低用户使用门槛，增强交互体验。

4. 实践问题与优化

4.1 常见问题及解决方案

问题现象	可能原因	解决方法
启动时报错`Model not found`	缓存路径错误	检查`/root/.cache/huggingface/...`是否存在模型文件
生成内容重复啰嗦	温度过低或 top_p 设置不当	尝试提高 temperature 至 0.7~0.8
GPU 内存溢出	batch_size 过大或 max_tokens 太高	降低`max_new_tokens`到 1024 或以下
中文标点乱码	tokenizer 解码异常	添加`clean_up_tokenization_spaces=True`

4.2 性能优化建议

量化加速（进阶）
使用bitsandbytes实现 4-bit 量化，进一步降低显存占用：

pip install bitsandbytes

修改模型加载方式：

model = AutoModelForCausalLM.from_pretrained( MODEL_PATH, device_map="auto", load_in_4bit=True, trust_remote_code=True )

缓存机制
对高频请求（如默认关键词组合）添加 Redis 缓存，减少重复推理开销。
异步生成
使用gr.AsyncCallback支持异步调用，提升并发处理能力。

5. Docker 部署方案

5.1 Dockerfile 说明

FROM nvidia/cuda:12.1.0-runtime-ubuntu22.04 RUN apt-get update && apt-get install -y \ python3.11 \ python3-pip \ && rm -rf /var/lib/apt/lists/* WORKDIR /app COPY app.py . COPY -r /root/.cache/huggingface /root/.cache/huggingface RUN pip3 install torch==2.9.1+cu128 \ transformers==4.57.3 \ gradio==6.2.0 \ --extra-index-url https://download.pytorch.org/whl/cu128 EXPOSE 7860 CMD ["python3", "app.py"]

关键点：基础镜像需支持 CUDA 12.1+，且手动复制模型缓存目录以避免启动时重新下载。

5.2 构建与运行命令

# 构建镜像 docker build -t deepseek-poetry:1.5b . # 运行容器（挂载GPU） docker run -d --gpus all -p 7860:7860 \ -v /root/.cache/huggingface:/root/.cache/huggingface \ --name poetry-web \ deepseek-poetry:1.5b

可通过docker logs poetry-web查看运行日志。