通义千问3-14B实战教程：JSON输出与函数调用完整配置

1. 引言：为什么选择 Qwen3-14B？

你有没有遇到过这种情况：想要一个推理能力强的大模型，但显卡只有单张 RTX 4090？想找一个支持结构化输出的开源模型，却发现要么太慢、要么不支持商用？

如果你点头了，那这篇教程就是为你准备的。

Qwen3-14B 是阿里云在 2025 年 4 月推出的 148 亿参数 Dense 模型，不是 MoE 架构，全激活参数跑起来更稳定。它最吸引人的地方在于——用 14B 的体量，打出接近 30B 级别的推理表现，而且支持 Apache 2.0 协议，可免费商用。

更重要的是，它原生支持JSON 输出格式和函数调用（Function Calling），这意味着你可以用它来构建真正的 AI Agent 应用，比如自动查天气、调数据库、生成结构化报告等。

再加上 Ollama 和 Ollama-WebUI 的加持，部署和交互变得极其简单。我们甚至可以一键切换“思考模式”和“快速回答模式”，让同一个模型既能做复杂推理，也能当聊天助手。

本教程将手把手带你完成以下内容：

在本地部署 Qwen3-14B
配置 JSON 输出功能
实现函数调用能力
结合 Ollama-WebUI 提升使用体验

全程无需深度学习背景，只要你会敲命令行，就能跑起来。

2. 环境准备与快速部署

2.1 硬件要求与模型版本选择

Qwen3-14B 对硬件的要求非常友好，尤其是 FP8 量化版：

参数类型	显存占用	推荐设备
FP16 原始模型	~28 GB	A100 / H100
FP8 量化版	~14 GB	RTX 3090 / 4090

也就是说，一张消费级的 RTX 4090（24GB）完全可以全速运行 FP8 版本，还能留出空间给其他应用。

目前 Ollama 已经支持qwen3:14b和qwen3:14b-fp8两个官方镜像，推荐个人用户直接使用 FP8 版本。

2.2 安装 Ollama

Ollama 是目前最简单的本地大模型运行工具之一，安装只需一条命令：

curl -fsSL https://ollama.com/install.sh | sh

安装完成后启动服务：

ollama serve

保持这个终端运行，或者用nohup放到后台。

2.3 下载 Qwen3-14B 模型

接下来拉取模型：

ollama pull qwen3:14b-fp8

首次下载可能需要几分钟（约 14GB），取决于你的网络速度。

提示：如果你希望尝试非量化版本，可以用ollama pull qwen3:14b，但需确保显存足够。

2.4 安装 Ollama-WebUI

虽然 Ollama 自带 API，但没有图形界面不太方便。我们可以用社区开发的 Ollama WebUI 来提升体验。

克隆项目并启动：

git clone https://github.com/ollama-webui/ollama-webui.git cd ollama-webui docker-compose up -d

打开浏览器访问http://localhost:3000，就能看到漂亮的对话界面了。

现在你已经有了完整的本地运行环境：Ollama 跑模型 + WebUI 提供交互，双重 buff 叠加，丝滑得很。

3. 启用 JSON 输出：让模型返回结构化数据

很多应用场景中，我们需要模型返回固定格式的数据，比如 JSON。传统做法是让模型自由输出再解析，容易出错。而 Qwen3-14B 原生支持强制 JSON 输出，这才是专业级玩法。

3.1 如何开启 JSON 模式？

在调用 API 时，只需要添加一个参数：format: json。

使用 curl 测试 JSON 输出

curl http://localhost:11434/api/generate -s -N \ -H "Content-Type: application/json" \ -d '{ "model": "qwen3:14b-fp8", "prompt": "请生成一个用户信息，包含姓名、年龄、城市、职业", "format": "json" }'

你会看到类似这样的输出：

{"response":"{\"name\": \"李明\", \"age\": 32, \"city\": \"杭州\", \"job\": \"产品经理\"}"}

注意看，response字段里的内容本身就是合法 JSON 字符串，可以直接JSON.parse()处理。

3.2 Python 中调用 JSON 模式

更常见的场景是在 Python 中集成。这里用requests实现：

import requests import json def get_json_response(prompt): url = "http://localhost:11434/api/generate" data = { "model": "qwen3:14b-fp8", "prompt": prompt, "format": "json" } response = requests.post(url, json=data, stream=True) result = "" for line in response.iter_lines(): if line: body = json.loads(line.decode('utf-8')) if "response" in body: result += body["response"] try: return json.loads(result) except json.JSONDecodeError: print("JSON 解析失败:", result) return None # 示例调用 user_info = get_json_response("生成一位北京程序员的信息，包括姓名、年龄、技能栈") print(user_info)

输出示例：

{ "name": "张伟", "age": 29, "skills": ["Python", "Go", "Docker", "Kubernetes"] }

是不是很干净？再也不用手动清洗文本了。

3.3 注意事项

提示词要明确：告诉模型你要什么字段，否则可能漏项。
不要嵌套太深：尽量控制在两层以内，避免格式错误。
测试验证必做：每次上线前多测几轮边界情况。

4. 函数调用实战：让模型真正“行动”起来

如果说 JSON 输出是“说清楚”，那函数调用就是“动手干”。这是实现 AI Agent 的关键一步。

Qwen3-14B 支持通过定义工具（tools）来触发外部函数执行，比如查询天气、搜索网页、操作数据库等。

4.1 函数调用的基本原理

流程如下：

你定义一组可用函数（名称、描述、参数）
模型根据用户问题判断是否需要调用函数
如果需要，模型返回函数名和参数（JSON 格式）
你执行函数，并把结果回传给模型
模型结合结果生成最终回答

整个过程就像人打电话求助专家。

4.2 定义函数 schema

以“获取天气”为例，先定义它的接口描述：

{ "name": "get_weather", "description": "获取指定城市的当前天气情况", "parameters": { "type": "object", "properties": { "city": { "type": "string", "description": "城市名称，如北京、上海" } }, "required": ["city"] } }

4.3 调用 API 触发函数识别

发送请求时带上tools参数：

curl http://localhost:11434/api/chat -s -N \ -H "Content-Type: application/json" \ -d '{ "model": "qwen3:14b-fp8", "messages": [ { "role": "user", "content": "北京今天天气怎么样？" } ], "tools": [ { "type": "function", "function": { "name": "get_weather", "description": "获取指定城市的当前天气情况", "parameters": { "type": "object", "properties": { "city": { "type": "string", "description": "城市名称" } }, "required": ["city"] } } } ] }'

模型会返回：

{ "message": { "role": "assistant", "content": "", "tool_calls": [ { "function": { "name": "get_weather", "arguments": "{\"city\": \"北京\"}" } } ] } }

看到了吗？模型没有直接回答，而是建议调用get_weather函数，并给出了参数。

4.4 执行函数并返回结果

你在代码中捕获这个tool_call，然后执行真实逻辑：

def execute_tool(tool_name, args): if tool_name == "get_weather": city = args.get("city", "") # 这里可以接入真实天气 API return {"temperature": "23°C", "condition": "晴"} return None

拿到结果后，再发一次请求给模型：

curl http://localhost:11434/api/chat -s -N \ -H "Content-Type: application/json" \ -d '{ "model": "qwen3:14b-fp8", "messages": [ { "role": "user", "content": "北京今天天气怎么样？" }, { "role": "assistant", "tool_calls": [ { "function": { "name": "get_weather", "arguments": "{\"city\": \"北京\"}" } } ] }, { "role": "tool", "name": "get_weather", "content": "{\"temperature\": \"23°C\", \"condition\": \"晴\"}" } ] }'

这次模型就会生成自然语言回答：

{ "message": { "role": "assistant", "content": "北京今天天气晴朗，气温为23°C，适合外出活动。" } }

整个链路打通！

5. 高级技巧与实用建议

5.1 切换 Thinking 模式 vs Non-thinking 模式

Qwen3-14B 最特别的功能之一是双模式推理：

Thinking 模式：显式输出<think>步骤，适合数学题、编程、逻辑推理
Non-thinking 模式：隐藏中间过程，响应更快，适合日常对话、写作、翻译

如何切换？

默认是 Non-thinking。要启用 Thinking，只需在 prompt 中加入：

请用 thinking 模式逐步分析问题。

或者在系统提示中设置：

"system": "你是一个严谨的AI助手，请在处理复杂问题时使用 <think>...</think> 标签展示推理过程。"

你会发现模型开始输出类似：

<think> 首先，我需要理解用户的问题... 然后查找相关知识... 最后组织语言回答... </think>

这对调试和提升准确性很有帮助。

5.2 提高函数调用准确率的小技巧

函数命名清晰：避免歧义，比如search_product比query更好
参数描述具体：写清楚每个字段的含义
限制函数数量：同时开放太多函数容易混淆
加入示例对话：在 system prompt 中加一段 demo，教模型怎么调用

例如：

示例： 用户：上海明天会下雨吗？ 你：{"tool_calls": [{"function": {"name": "get_weather", "arguments": {"city": "上海"}}}]}

5.3 性能优化建议

使用qwen3:14b-fp8版本，显存压力小一半
开启 vLLM 加速（Ollama 内部已集成）提升吞吐
批量请求时使用/api/chat而非/api/generate
WebUI 中开启流式输出，用户体验更好

6. 总结：Qwen3-14B 的定位与未来潜力

6.1 我们学到了什么？

在这篇教程中，我们一起完成了：

本地部署 Qwen3-14B 模型
配置 JSON 输出，获得结构化响应
实现函数调用，打通 AI Agent 关键路径
使用 Ollama + WebUI 构建完整交互系统
掌握双模式切换技巧，灵活应对不同任务

这些能力组合起来，已经足以支撑一个轻量级的企业级 AI 助手。

6.2 为什么说它是“大模型守门员”？

因为 Qwen3-14B 在多个维度做到了极致平衡：

性能强：14B 打出 30B+ 表现，尤其在推理和长文本上优势明显
成本低：单卡可跑，FP8 版本亲民
功能全：JSON、函数调用、Agent 插件一应俱全
协议好：Apache 2.0，允许商用，无法律风险
生态强：vLLM、Ollama、LMStudio 全支持，开箱即用

对于中小企业或独立开发者来说，它是目前性价比最高的选择之一。

6.3 下一步你可以做什么？

把函数调用接入真实 API（如天气、数据库、CRM）
搭建自己的 AI 客服机器人
做自动化报告生成器
尝试微调模型适配特定领域
结合 LangChain 或 LlamaIndex 构建复杂工作流

别忘了，这只是一个开始。Qwen3-14B 不只是个聊天模型，它是一块通往智能应用世界的跳板。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。