【深度收藏】大模型部署框架对决:Ollama与vLLM谁更适合你?从入门到生产环境全方位解析

引言 🎯

开源 LLM 模型已经成为爱好者、程序员和希望在日常工作中使用生成式 AI 同时保护隐私的用户的热门选择。这些模型性能出色,有时在许多任务上甚至可以媲美像 GPT-4o 或 Claude Sonnet 3.5 这样的大型闭源模型。

虽然它们是开源的,但并不意味着开箱即用,你需要一个框架来在本地或服务器上运行它们,满足特定用例。此外,OpenAI 兼容的服务器已成为部署模型最流行的方式,因为这种 API 让你可以用几乎任何 SDK 或客户端来使用你的 LLM,比如 OpenAI SDK、Transformers、LangChain 等。所以问题来了:哪个框架最适合部署与 OpenAI 兼容的 LLM?

我们将分析 Ollama 和 vLLM 这两个最受欢迎的框架,它们都支持 OpenAI API 兼容性。本分析将涵盖性能、易用性、自定义能力以及其他有助于选择最适合你特定用例的框架的公平比较。

对比大战开始啦!

Ollama 是什么?🦙


Ollama 是一个强大的框架,目标是让运行 LLM 变得尽可能简单。可以把它想象成 LLM 的 Docker——它简化了下载、运行和管理大型语言模型的整个过程,无论是在本地机器还是服务器上。

安装 🛠️

Ollama 的安装非常简单。以下是在不同平台上的安装方法:

Linux(我用的这个)

curl -fsSL https://ollama.com/install.sh | sh

macOS

brew install ollama

Windows
我不用 Windows,但 Ollama 的一个优势就是它的多功能性:

  1. 安装 WSL(Windows Subsystem for Linux)
  2. 按照 Linux 的安装说明操作

感谢用户Quark Quark的建议,你也可以通过这个链接在 Windows 上安装 Ollama:[链接地址]。

使用 🚀

Ollama 提供了一个现成的模型库,你只需要一行代码就能运行:

ollama run <anymodel>

这让你可以轻松在终端运行 Ollama 模型库中的任何模型。在本教程中,我将使用我最喜欢的模型之一 Qwen2.5–14B,它可以在我的 RTX 4060(16GB 显存)上运行:

ollama run qwen2.5:14b --verbose

就这样!只用一行代码,你就能在本地或服务器上运行一个 LLM,想问啥就问啥。我加了--verbose参数,这样可以看到每秒处理的 token 数(tok/sec)性能——在我的机器上,达到了 26 tok/sec.

Ollama 参数 🔧

上一节展示了 Ollama 使用的简便性。但我们之前用的是默认参数。如果想改参数怎么办?

Modelfile 创建 📝

要用特定参数创建自己的模型,你需要创建一个 Modelfile,这是一个包含你想设置参数的纯文本文件。示例:

FROM qwen2.5:14b # 设置温度为 1 [越高越有创造性,越低越连贯] PARAMETER temperature 0.5 # 设置上下文窗口大小为 8192,控制 LLM 生成下一个 token 时可用的上下文 token 数 PARAMETER num_ctx 8192 # 设置生成 token 数为 4096(最大值) PARAMETER num_predict 4096 # 系统提示配置 SYSTEM """You are a helpful AI assistant."""

构建并运行自定义模型:

# 构建模型 ollama create mymodel -f Modelfile # 运行模型 ollama run mymodel --verbose

完整的可自定义参数列表可以查看这个链接:[链接地址]。

Ollama API 🔌

目前为止,我们已经在终端运行了一个模型,这是个很棒的功能,方便你轻松尝试各种模型。但我们研究的目标是用与 OpenAI 兼容的方式使用这些模型。Ollama 怎么做到呢?Ollama 提供了两种与模型交互的方式:

  1. 原生 REST API 📡

    Ollama 默认在 11434 端口运行一个本地服务器。你可以用标准的 HTTP 请求与之交互:

import requests # 基本聊天完成请求 response = requests.post('http://<your_ollama_server_ip>:11434/api/chat', json={ 'model': 'qwen2.5:14b', 'messages': [ { 'role': 'system', 'content': 'You are a helpful AI assistant.' }, { 'role': 'user', 'content': '什么是人工智能?' } ], 'stream': False } ) print(response.json()['message']['content'])
  1. OpenAI 兼容层 🔄

为了与现有应用无缝集成,Ollama 提供了 OpenAI API 兼容性。首先,启动 OpenAI 兼容服务器:

用 OpenAI Python SDK:

from openai import OpenAI client = OpenAI( base_url="http://<your_ollama_server_ip>:11434/v1", api_key="dummy"# vLLM 要求 API key,这是它对比 Ollama 的一个优势。我们这里设为 None,所以可以随便填个字符串 ) # 聊天完成 response = client.chat.completions.create( model="qwen2.5:14b", messages=[ {"role": "system", "content": "You are a helpful assistant."}, {"role": "user", "content": "什么是人工智能?"} ] ) print(response.choices[0].message.content)
Ollama API 的主要功能 🎯

Ollama 的 API 功能强大,为开发者提供了很多实用特性。我们将在本教程的第三部分详细讨论这个框架的优缺点,现在先列出主要功能:

  • 流式支持:实时生成 token,完全兼容 OpenAI API,非常适合创建响应迅速的应用。
  • 多模型管理:可以同时运行不同模型,但有个问题:当显存(VRAM)不足时,Ollama 会停掉一个模型来运行另一个,需要仔细规划资源。
  • 参数控制:通过 API 调用高度自定义设置——这是一把双刃剑,灵活性高,但对新手和生产服务器可能有点复杂。
  • CPU 兼容性:智能资源管理,当显存不足时会自动将模型层卸载到 CPU,让即使显存有限的系统也能运行大型模型。
  • 语言无关:可以用你喜欢的编程语言,无论是 Python、JavaScript、Go,还是任何支持 HTTP 的语言。

对比大战第二回合!
让我们深入了解这个框架为何是 LLM 推理的引人注目的选择!🚀

vLLM 是什么?🚀


vLLM 是一个专注于效率和可扩展性的高性能 LLM 推理框架。基于 PyTorch 构建,它利用 CUDA 进行 GPU 加速,并实现了连续批处理和高效内存管理等先进优化技术,使其特别适合生产环境。

使用 🛠️

使用 vLLM 不像 Ollama 那么简单,我认为最好的方式是通过 Docker 进行干净且隔离的安装。Docker 提供了一致的运行环境,简化了在不同系统上的部署。

前提条件
  • • 系统已安装 Docker
  • • NVIDIA Container Toolkit(用于 GPU 支持)
  • • 至少 16GB 内存(推荐)
  • • 具有足够显存(VRAM)的 NVIDIA GPU

在我撰写本文时,vLLM 对 GGUF 量化模型的支持还不完整,但未来可能会改变。以下是 vLLM 文档网站上的信息:

截图来自 vLLM 文档网站。

但什么是 GGUF?为什么对我们的研究如此重要?

GGUF(GPT-Generated Unified Format)🔍

GGUF 被许多人认为是 GGML 的继承者,是一种量化方法,支持大型语言模型在 CPU 和 GPU 上的混合执行,优化内存使用和推理速度。它对我们的研究尤为重要,因为这是 Ollama 支持模型执行的唯一格式。

该格式在 CPU 架构和 Apple Silicon 上特别高效,支持多种量化级别(从 4 位到 8 位),同时保持模型质量。

虽然 vLLM 目前对 GGUF 的支持有限,专注于原生 GPU 优化,但了解这种格式对我们的比较分析至关重要,因为它是 Ollama 操作的基础。在本研究的第三部分,我们将探讨这些不同的模型优化方法如何影响性能指标,全面展示两种框架在不同硬件配置下的能力。

使用 Docker 部署 🐳

弄清楚这些后,我们继续部署 Qwen2.5–14B 作为本研究的参考模型。由于 vLLM 尚不支持多文件量化模型(见上图),我们不能使用 Qwen 官方提供的 GGUF 模型,因此只需下载单个文件。这可能需要一些时间,具体取决于你的网络速度:

# 在工作目录中创建 models 文件夹 mkdir models/ mkdir models/Qwen2.5-14B-Instruct/ # 从 lmstudio 社区下载模型,这是一个 4 位量化的单一文件模型 huggingface-cli download lmstudio-community/Qwen2.5-14B-Instruct-GGUF Qwen2.5-14B-Instruct-Q4_K_M.gguf --local-dir ./models/Qwen2.5-14B-Instruct/ # 从官方仓库下载生成配置文件并修改 huggingface-cli download Qwen/Qwen2.5-14B-Instruct generation_config.json --local-dir ./config

你还需要设置一个generation_config.json文件。这部分很关键,我第一次尝试修改 temperature 参数时简直头大。实际上,我在官方仓库开了个 issue,连官方维护者都没能给出一个有效答复,所以我自己摸索出来了。下面是generation_config.json的样子,我在这里设置了temperature=0

{ "bos_token_id":151643, "pad_token_id":151643, "do_sample":true, "eos_token_id":[ 151645, 151643 ], "repetition_penalty":1.05, "temperature":0.0, "top_p":0.8, "top_k":20, "transformers_version":"4.37.0" }

因此,你需要创建一个包含这个 JSON 文件的文件夹,并确保文件名精确为generation_config.json

运行 Docker 容器,带上很多参数:

# 使用 GPU 支持运行容器 docker run -it \ --runtime nvidia \ --gpus all \ --network="host" \ --ipc=host \ -v ./models:/vllm-workspace/models \ -v ./config:/vllm-workspace/config \ vllm/vllm-openai:latest \ --model models/Qwen2.5-14B-Instruct/Qwen2.5-14B-Instruct-Q4_K_M.gguf \ --tokenizer Qwen/Qwen2.5-14B-Instruct \ --host "0.0.0.0" \ --port 5000 \ --gpu-memory-utilization 1.0 \ --served-model-name "VLLMQwen2.5-14B" \ --max-num-batched-tokens 8192 \ --max-num-seqs 256 \ --max-model-len 8192 \ --generation-config config

哇,这里发生了好多事 🤣,参数一大堆,每个都啥意思?

  • --runtime nvidia --gpus all:为容器启用 NVIDIA GPU 支持。
  • --network="host":使用主机网络模式以获得更好性能。
  • --ipc=host:允许主机和容器之间共享内存。
  • -v ./models:/vllm-workspace/models:将本地模型目录挂载到容器中。这是包含 Qwen2.5–14B 模型的文件夹。
  • --model:指定 GGUF 模型文件的路径。
  • --tokenizer:定义使用的 HuggingFace 分词器。
  • --gpu-memory-utilization 1:将 GPU 内存使用率设为 100%。
  • --served-model-name:通过 API 服务时的自定义模型名称,你可以随意指定。
  • --max-num-batched-tokens:批处理中的最大 token 数。
  • --max-num-seqs:同时处理的最大序列数。
  • --max-model-len:模型的最大上下文长度。

这些参数可以根据你的硬件能力和性能需求进行调整。运行这个命令后,会出现一大堆日志,别担心,一切正常。当你看到类似下面的信息时,说明 API 已经可以使用了:

这表示你的 API 已准备就绪

vLLM API 🔌


目前,我们已经在服务器(或本地机器)上运行了一个 100% 兼容 OpenAI 的 API。让我们尝试调用它,并检查单次 POST 请求和使用 Python 的 OpenAI SDK 的推理性能。

  1. REST API 📡

vLLM 默认在 8000 端口运行本地服务器,但我喜欢 5000 端口,所以我用了这个 🤣。你可以用标准 HTTP 请求与之交互:

import requests # 基本聊天完成请求,注意 endpoint 与 Ollama 不同response = requests.post('http://192.168.100.60:5000/v1/chat/completions', json={ 'model': 'VLLMQwen2.5-14B', 'messages': [ { 'role': 'system', 'content': 'You are a helpful AI assistant.' }, { 'role': 'user', 'content': '什么是人工智能?' } ], 'stream': False })print(response.json()['choices'][0]['message']['content'])
  1. OpenAI 兼容层 🔄

为了与现有应用无缝集成,vLLM 提供 OpenAI API 兼容性。首先,启动 OpenAI 兼容服务器:

使用 OpenAI Python SDK:

from openai import OpenAI client = OpenAI( base_url="http://<your_vLLM_server_ip>:5000/v1", api_key="dummy"# vLLM 支持要求 API key,这是它对比 Ollama 的一个优势。我们这里设为 None,所以可以随便填个字符串 ) # 聊天完成 response = client.chat.completions.create( model="VLLMQwen2.5-14B", messages=[ {"role": "system", "content": "You are a helpful assistant."}, {"role": "user", "content": "什么是人工智能?"} ] ) print(response.choices[0].message.content)

初步性能测试显示,vLLM 达到了 29 tokens/sec(首 token 生成预计较慢),比第一部分记录的 Ollama 的 26 tokens/sec 提高了 11%。我们将在本系列的第三部分深入比较性能。🚀

vLLM 的日志

vLLM API 的主要功能 🎯


vLLM 的 API 专为高性能推理和生产环境设计。我们将在本教程的第三部分深入探讨其优缺点,现在先来看主要功能:

  • 高级 GPU 优化:利用 CUDA 和 PyTorch 最大化 GPU 使用率,带来更快的推理速度(正如我们看到的 29 tok/sec 性能)。
  • 批处理能力:实现连续批处理和高效内存管理,支持多个并发请求的更高吞吐量。
  • 安全特性:内置 API key 支持和适当的请求验证,不像其他框架完全跳过认证。
  • 灵活部署:全面支持 Docker,精细控制 GPU 内存使用率和模型参数。

Ollama VS vLLM


公平比较,选择最佳 OpenAI 兼容解决方案

只有一个能成为冠军,或者未必?🤔

基准测试设置 ⚡

为了确保公平比较,我们将对两种框架使用相同的硬件和模型:

硬件配置:

  • • GPU:NVIDIA RTX 4060 16GB Ti
  • • 内存:64GB RAM
  • • CPU:AMD Ryzen 7
  • • 存储:NVMe SSD

模型:

  • • Qwen2.5–14B-Instruct(4位量化)
  • • 上下文长度:8192 token
  • • 批处理大小:1(单用户场景)

非常公平的比较 📊

让我们分析两种框架如何以不同方式管理系统资源,重点关注它们的核心架构方法和现实世界的意义。

Ollama:

我用了一个单一问题“给我讲一个1000字的故事”作为例子。单次请求的性能为 25.59 tok/sec,没有进行并行请求。

问题:“给我讲一个1000字的故事” 用于 Ollama

对于并行请求,用户需要修改(在 Ubuntu 系统上)位于/etc/systemd/system/ollama.service的文件,添加一行Environment="OLLAMA_NUM_PARALLEL=4",这样最多允许 4 个并行请求:

[Unit] Description=Ollama ServiceAfter=network-online.target[Service]ExecStart=/usr/local/bin/ollama serveUser=ollamaGroup=ollamaRestart=alwaysRestartSec=3Environment="PATH=/home/henry/.local/bin:/usr/local/cuda/bin/:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin"Environment="OLLAMA_HOST=0.0.0.0:11434"Environment="OLLAMA_DEBUG=1"Environment="OLLAMA_NUM_PARALLEL=4"Environment="OPENAI_BASE_URL=http://0.0.0.0:11434/api"[Install] WantedBy=multi-user.target

这里是我完全不喜欢 Ollama 的地方,我认为它不适合生产环境。Ollama 会预留所有需要的内存,即便实际只用了一小部分。也就是说,即便只有 4 个并发请求,也无法将完整模型加载到 GPU 上,部分层会被加载到 CPU 上,你可以通过下面的图片或在终端运行ollama ps看到:

15%的神经网络被加载到 GPU 上

这还不是最糟的。我发现只有 15%的神经网络被加载到 GPU 上,但 GPU 还有将近 2GB 的显存空闲!为什么 Ollama 会这样?

在 GitHub 上有一个至今未关闭的问题,Ollama 开发者对此毫无回应。好几个用户都遇到了同样的问题,即使只有 4 个并行请求,加载整个神经网络似乎都非常困难。Ollama 没有任何相关文档。

了解了这个情况,Ollama 支持的最大上下文长度是多少,能否 100% 将模型加载到 GPU 上?我尝试修改 Modelfile,设置PARAMETER num_ctx 24576(稍后会解释为什么是这个数字),结果发现同样的问题:尽管 GPU 还有将近 2GB 显存空闲,4%的模型还是被加载到 CPU 上。

Ollama 将 4%的模型加载到 CPU 上 😦

vLLM:

vLLM 采用纯粹的 GPU 优化方法,正如我们在本系列第二部分看到的,GGUF 量化仍处于实验阶段。为了公平比较,我想用我的 GPU 支持的最大上下文长度。经过多次尝试,我的 RTX 4060 Ti 支持 24576 token。所以我运行了以下修改过的 Docker 命令(相比本系列第二部分):

# 使用 GPU 支持运行容器 docker run -it \ --runtime nvidia \ --gpus all \ --network="host" \ --ipc=host \ -v ./models:/vllm-workspace/models \ -v ./config:/vllm-workspace/config \ vllm/vllm-openai:latest \ --model models/Qwen2.5-14B-Instruct/Qwen2.5-14B-Instruct-Q4_K_M.gguf \ --tokenizer Qwen/Qwen2.5-14B-Instruct \ --host "0.0.0.0" \ --port 5000 \ --gpu-memory-utilization 1.0 \ --served-model-name "VLLMQwen2.5-14B" \ --max-num-batched-tokens 24576 \ --max-num-seqs 256 \ --max-model-len 8192 \ --generation-config config

我居然能运行多达 20 个并行请求!!太疯狂了!!为了测试这个框架,我使用了以下代码:

import requests import concurrent.futuresBASE_URL = "http://<your_vLLM_server_ip>:5000/v1"API_TOKEN = "sk-1234"MODEL = "VLLMQwen2.5-14B"defcreate_request_body(): return { "model": MODEL, "messages": [ {"role": "user", "content": "给我讲一个1000字的故事。"} ] }defmake_request(request_body): headers = { "Authorization": f"Bearer {API_TOKEN}", "Content-Type": "application/json" } response = requests.post(f"{BASE_URL}/chat/completions", json=request_body, headers=headers, verify=False) return response.json()defparallel_requests(num_requests): request_body = create_request_body() with concurrent.futures.ThreadPoolExecutor(max_workers=num_requests) as executor: futures = [executor.submit(make_request, request_body) for _ inrange(num_requests)] results = [future.result() for future in concurrent.futures.as_completed(futures)] return resultsif __name__ == "__main__": num_requests = 50# 示例:设置并行请求数量 responses = parallel_requests(num_requests) for i, response inenumerate(responses): print(f"Response {i+1}: {response}")

我竟然达到了超过 100 tokens/sec!简直不敢相信这在一块游戏 GPU 上是可能的。GPU 使用率达到了 100%,这正是我想要的:充分利用 GPU(毕竟我花钱买了 100%的 GPU 🤣)。

20 个并行请求的推理!!!

这还不是最棒的,我们设置了--max-num-seqs 256,理论上可以并行发送 256 个请求!!我简直不敢相信,也许我稍后会试试这些测试。

以下是我的最终想法:

最终决定…… ⚖️

性能概览:显然 vLLM 是赢家。正如我们在第二部分看到的,单次请求下,vLLM 比 Ollama(26 tok/sec)提高了 11%(29 tok/sec)。

资源管理:vLLM 绝对是王者。看到 Ollama 无法处理多个并行请求,甚至 4 个并行请求都因为资源管理效率低下而失败,我非常失望。

易用性和开发:没有什么比 Ollama 更简单的了。即使你不是专家,也能用一行代码轻松与 LLM 交互。而 vLLM 需要一些 Docker 和更多参数的知识。

生产就绪性:vLLM 就是为此而生,甚至许多无服务器端点提供商(我有我的消息来源 🤣)都在用这个框架作为他们的端点。

安全性:vLLM 支持 token 授权以确保安全,而 Ollama 没有。如果不做好安全措施,任何人都能访问你的 Ollama 端点。

文档:两种框架的文档风格不同:Ollama 的文档简单、适合初学者,但缺乏技术深度,尤其是在性能和并行处理方面。他们的 GitHub 讨论经常对关键问题置之不理。相比之下,vLLM 提供了全面的技术文档,包含详细的 API 参考和指南。他们的 GitHub 维护良好,开发者响应及时,有助于问题排查和理解,甚至还有专门的网站。

所以,在我看来,赢家是……没有赢家!

在我看来,如果你的目标是在本地或远程服务器上快速试验大型语言模型,且不想费太多心思设置,Ollama 无疑是你的首选。它的简单易用非常适合快速原型设计、测试想法,或者适合刚开始接触 LLM 的开发者,想有个平缓的学习曲线。

然而,当我们将焦点转向性能、可扩展性和资源优化至关重要的生产环境时,vLLM 显然更胜一筹。它处理并行请求的能力、有效的 GPU 利用率和强大的文档使其成为大规模部署的强力竞争者。该框架从可用硬件资源中榨取最大性能的能力尤其令人印象深刻,对希望优化 LLM 基础设施的公司来说可能是游戏规则的改变者。

话虽如此,Ollama 和 vLLM 的选择不能孤立决定。必须根据你的具体用例,考虑以下因素:

  • • 项目规模
  • • 团队技术专长
  • • 应用的特定性能要求
  • • 开发时间表和资源
  • • 定制和微调的需求
  • • 长期维护和支持的考虑

本质上,虽然 vLLM 在生产环境中可能提供更优的性能和可扩展性,但 Ollama 的简单性在某些场景下非常宝贵,特别是在开发的早期阶段或小型项目中。

最终,最佳选择将是与你的项目独特需求和限制最匹配的那个。值得考虑的是,在某些情况下,你甚至可能从两者结合使用中受益:用 Ollama 进行快速原型设计和初期开发,等准备好扩展和优化生产环境时再用 vLLM。这种混合方法可以让你兼得两者的优势,在项目生命周期的不同阶段利用每个框架的强项。

普通人如何抓住AI大模型的风口?

领取方式在文末

为什么要学习大模型?

目前AI大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用 , 大模型作为其中的重要组成部分 , 正逐渐成为推动人工智能发展的重要引擎 。大模型以其强大的数据处理和模式识别能力, 广泛应用于自然语言处理 、计算机视觉 、 智能推荐等领域 ,为各行各业带来了革命性的改变和机遇 。

目前,开源人工智能大模型已应用于医疗、政务、法律、汽车、娱乐、金融、互联网、教育、制造业、企业服务等多个场景,其中,应用于金融、企业服务、制造业和法律领域的大模型在本次调研中占比超过30%。

随着AI大模型技术的迅速发展,相关岗位的需求也日益增加。大模型产业链催生了一批高薪新职业:

人工智能大潮已来,不加入就可能被淘汰。如果你是技术人,尤其是互联网从业者,现在就开始学习AI大模型技术,真的是给你的人生一个重要建议!

最后

只要你真心想学习AI大模型技术,这份精心整理的学习资料我愿意无偿分享给你,但是想学技术去乱搞的人别来找我!

在当前这个人工智能高速发展的时代,AI大模型正在深刻改变各行各业。我国对高水平AI人才的需求也日益增长,真正懂技术、能落地的人才依旧紧缺。我也希望通过这份资料,能够帮助更多有志于AI领域的朋友入门并深入学习。

真诚无偿分享!!!
vx扫描下方二维码即可
加上后会一个个给大家发

【附赠一节免费的直播讲座,技术大佬带你学习大模型的相关知识、学习思路、就业前景以及怎么结合当前的工作发展方向等,欢迎大家~】

大模型全套学习资料展示

自我们与MoPaaS魔泊云合作以来,我们不断打磨课程体系与技术内容,在细节上精益求精,同时在技术层面也新增了许多前沿且实用的内容,力求为大家带来更系统、更实战、更落地的大模型学习体验。

希望这份系统、实用的大模型学习路径,能够帮助你从零入门,进阶到实战,真正掌握AI时代的核心技能!

01教学内容

  • 从零到精通完整闭环:【基础理论 →RAG开发 → Agent设计 → 模型微调与私有化部署调→热门技术】5大模块,内容比传统教材更贴近企业实战!

  • 大量真实项目案例:带你亲自上手搞数据清洗、模型调优这些硬核操作,把课本知识变成真本事‌!

02适学人群

应届毕业生‌:无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。

零基础转型‌:非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能突破瓶颈:传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型‌。

vx扫描下方二维码即可
【附赠一节免费的直播讲座,技术大佬带你学习大模型的相关知识、学习思路、就业前景以及怎么结合当前的工作发展方向等,欢迎大家~】

本教程比较珍贵,仅限大家自行学习,不要传播!更严禁商用!

03入门到进阶学习路线图

大模型学习路线图,整体分为5个大的阶段:

04视频和书籍PDF合集

从0到掌握主流大模型技术视频教程(涵盖模型训练、微调、RAG、LangChain、Agent开发等实战方向)

新手必备的大模型学习PDF书单来了!全是硬核知识,帮你少走弯路(不吹牛,真有用)

05行业报告+白皮书合集

收集70+报告与白皮书,了解行业最新动态!

0690+份面试题/经验

AI大模型岗位面试经验总结(谁学技术不是为了赚$呢,找个好的岗位很重要)

07 deepseek部署包+技巧大全

由于篇幅有限

只展示部分资料

并且还在持续更新中…

真诚无偿分享!!!
vx扫描下方二维码即可
加上后会一个个给大家发

【附赠一节免费的直播讲座,技术大佬带你学习大模型的相关知识、学习思路、就业前景以及怎么结合当前的工作发展方向等,欢迎大家~】

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1163761.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【建议收藏】RAG技术选型指南:MaxKB还是FastGPT?一文带你读懂企业级知识库构建方案

RAG技术是当前阶段做内部知识库或者智能客服的不二之选。然而目前市面上可用作RAG的开源软件实在是太多了&#xff0c;Coze、Dify、FastGPT、RAGFlow还有MaxKB&#xff0c;当然还有其它&#xff0c;我就不再一一列举了。 今天这篇文章主要探讨在RAG领域&#xff0c;到底是选Max…

橡胶制品:柔性赋能多领域,绿色转型启新程

橡胶&#xff0c;作为一种兼具高弹性、耐磨性与密封性的特殊材料&#xff0c;其制品早已深度融入人类生产生活的方方面面。从驰骋公路的汽车轮胎到精密仪器的密封垫圈&#xff0c;从医疗领域的硅胶导管到日常使用的防滑手套&#xff0c;橡胶制品以其独特的柔性特质&#xff0c;…

Spring IoC是什么意思?3分钟讲清核心原理与作用

对于刚接触Spring框架的开发者来说&#xff0c;IoC&#xff08;控制反转&#xff09;是一个绕不开的核心概念。简单来说&#xff0c;它颠覆了传统程序主动创建和管理对象的模式&#xff0c;改由框架来接管这个过程。这不是一个空洞的理论&#xff0c;它直接决定了你如何构建松耦…

setcommmask有什么用?串口编程的事件过滤器详解

在处理Windows串口通信编程时&#xff0c;SetCommMask是一个你必须掌握的核心函数。它本质上是一个“事件过滤器”&#xff0c;用于告诉操作系统你的程序关心串口上发生的哪些异步事件。合理设置事件掩码&#xff0c;可以让你编写的串口通信程序高效且响应迅速&#xff0c;避免…

AI产品经理必看!手把手教你绘制AI智能体架构图

在AI项目从0到1的探索中&#xff0c;你是否遇到过这样的窘境&#xff1f;技术团队说自己“懂了”&#xff0c;却总在实现时出偏差&#xff1b;业务团队抓不住重点&#xff0c;不断变更需求&#xff1b;而管理层更关心的是ROI和交付节奏&#xff0c;却总对技术架构一头雾水。——…

导师推荐!MBA必备10款AI论文软件测评TOP10

导师推荐&#xff01;MBA必备10款AI论文软件测评TOP10 2026年MBA学术写作工具测评&#xff1a;为何值得关注&#xff1f; 在MBA学习与研究过程中&#xff0c;论文撰写是一项核心任务&#xff0c;而AI论文软件的使用正逐渐成为提升效率、优化内容质量的重要手段。然而&#xff0…

收藏!小白程序员入门大模型必看:别怕零基础,这门热门技术你也能掌握

准备入门大模型&#xff1f;先把“我没基础”“这技术太难”的顾虑抛开&#xff01;我始终相信&#xff0c;只要你有主动学习的意愿&#xff0c;再配上持续的付出&#xff0c;完全能攻克大模型&#xff0c;甚至能用它搞定各类实际场景中的有意义任务。 当下技术迭代速度飞快&am…

圆角矩形设计优势与前端实现技巧详解

圆角矩形&#xff08;roundrect&#xff09;是现代数字界面设计中无处不在的基础元素。它远不止是视觉上的柔和处理&#xff0c;更关乎用户体验的舒适度、信息的层级划分以及品牌调性的传达。从iOS的图标到各类应用按钮&#xff0c;其背后的设计逻辑与实现细节值得每一位设计师…

【深度学习】YOLO 进阶提升之算法改进(新型骨干网络 / 特征融合方法 / 损失函数设计)

YOLO 系列算法的性能瓶颈主要集中在小目标检测精度、复杂场景鲁棒性、边界框回归精度三个维度。通过改进骨干网络、特征融合方法、损失函数三大核心模块&#xff0c;可针对性突破瓶颈&#xff0c;实现精度与速度的二次提升。本文以 YOLOv8/v11 为基础&#xff0c;从改进思路、技…

AI落地实践:2026年十大行业应用全解析 | 程序员学习指南,建议收藏

2026年人工智能从技术探索迈向规模化应用&#xff0c;"AI"上升为国家战略。国产大模型实现突破&#xff0c;深度融入工业制造、医疗健康、科研、金融等十大行业&#xff0c;从单点智能向全域智能转变&#xff0c;形成"技术突破—场景落地—产业升级"的良性…

C++ Win32窗口编程中窗口风格(Window Styles)的使用经验与相关要点总结(附源码)

目录 1、WS_CHILD和WS_POPUP 2、WS_VISIBLE 3、WS_MINIMIZE和WM_MAXIMIZE 4、WS_MINIMIZEBOX和WS_MAXIMIZEBOX 5、WS_BORDER和WS_CAPTION 6、WS_THICKFRAME和WS_SIZEBOX 7、WS_SYSTEMMENU 8、WS_EX_APPWINDOW和WS_EX_TOOLWINDOW 9、WS_EX_TOPMOST 10、WS_EX_LAYEREDW…

索磷布韦维帕他韦Sofosbuvir/velpatasvir治疗丙型肝炎的病毒学治愈周期与泛基因型疗效

丙型肝炎&#xff08;HCV&#xff09;作为一种全球性公共卫生挑战&#xff0c;其治疗策略随着直接抗病毒药物&#xff08;DAA&#xff09;的发展经历了革命性变革。索磷布韦维帕他韦&#xff08;Sofosbuvir/velpatasvir&#xff09;作为首个泛基因型DAA复方制剂&#xff0c;凭借…

收藏!大模型面试必问:为什么有KV-Cache却没有Q-Cache?

在大模型相关的技术面试中&#xff0c;“为什么存在KV-Cache却没有Q-Cache”是高频考点&#xff0c;不少刚入门大模型的程序员和小白都会被这个问题难住。今天这篇文章就从核心原理出发&#xff0c;结合具体生成流程拆解分析&#xff0c;帮你彻底搞懂这个问题&#xff0c;面试遇…

揭秘大厂数据库基石:RocksDB 读写原理与 LSM-Tree 架构深度图解

标签&#xff1a; #RocksDB #Database #LSM-Tree #Architecture #Backend #Interview&#x1f4c9; 前言&#xff1a;B 树跌落神坛&#xff1f; 在传统机械硬盘时代&#xff0c;MySQL 的 InnoDB 选择了 B 树。它对读非常友好&#xff0c;但面对海量并发写入时&#xff0c;随机 …

COOH-TK-Glucose-COOH,羧基-酮缩硫醇键-葡萄糖-羧基,化学特性与反应机制

COOH-TK-Glucose-COOH&#xff0c;羧基-酮缩硫醇键-葡萄糖-羧基&#xff0c;化学特性与反应机制COOH–TK–Glucose–COOH 是一种功能化小分子&#xff0c;其结构由以下组成部分构成&#xff1a;羧基&#xff08;–COOH&#xff09;&#xff1a;分子两端的羧基为活性位点&#x…

COOH-TK-Amino-COOH,羧基-酮缩硫醇键-氨基-羧基,化学反应特性

COOH-TK-Amino-COOH&#xff0c;羧基-酮缩硫醇键-氨基-羧基&#xff0c;化学反应特性COOH–TK–Amino–COOH 是一种功能化小分子&#xff0c;结合了 羧基、酮缩硫醇键&#xff08;TK&#xff09;以及氨基-羧基&#xff08;Amino–COOH&#xff09; 的结构特性。其分子可表示为&…

JAVA如何实现文件夹结构的大文件上传示例?

大文件传输系统解决方案设计与实现 一、项目背景与需求分析 作为河南XX软件公司的Java高级工程师&#xff0c;近期负责公司核心项目的大文件传输模块重构工作。原百度WebUploader方案在20G文件传输、跨浏览器兼容性、断点续传稳定性等方面存在严重缺陷&#xff0c;尤其在IE8和…

新手进阶Python:给办公看板加自动备份+异常监控,数据安全不翻车

大家好&#xff01;我是CSDN的Python新手博主&#xff5e; 上一篇我们给云端看板集成了AI智能分析功能&#xff0c;大幅提升了数据处理效率&#xff0c;但很多小伙伴反馈两个核心痛点&#xff1a;① 服务器上的Excel报表、用户配置文件一旦丢失&#xff08;比如服务器故障、误删…

医院电子病历怎样导入PDF中的医学公式至XHEDITOR?

企业网站Word粘贴与导入功能解决方案 作为山西IT行业的PHP工程师&#xff0c;我最近正在评估如何为企业网站后台管理系统集成Word粘贴和文档导入功能。以下是针对这一需求的详细技术分析方案。 需求分析 客户需要实现两个核心功能&#xff1a; Word粘贴功能&#xff1a;从W…

外泌体介导的IFN-α抗HBV效应传递机制研究

摘要 干扰素α在乙型肝炎病毒治疗中发挥核心作用&#xff0c;但其作用机制尚未完全阐明。复旦大学袁正宏团队最新研究发现&#xff0c;巨噬细胞来源的外泌体可通过模拟病毒入侵的分子机制&#xff0c;将IFN-α诱导的抗病毒效应传递至HBV感染的肝细胞内。该过程涉及TIM-1受体介…