一、ollama方式
1.本地部署ollama
部署方式:见本地部署ollama博客内容
2.基于langchain使用
from langchain_ollama.chat_models import ChatOllama llm = ChatOllama( model="deepseek-r1:8b", # 与本地 ollama run 的模型名保持一致 base_url="http://ip:11434", # 默认端口 temperature=0.1, num_predict=2048 ) # 单轮调用示例 for chunk in llm.stream( "你好" ): print(chunk.content)二、llamafile方式
1.本地部署
步骤(linux环境)
wget https://huggingface.co/FM-1976/Qwen2.5-1.6b-llamafile/resolve/main/QwenPortable.llamafile chmod +x QwenPortable.llamafile ./QwenPortable.llamafile2.基于langchain使用
from langchain_openai import ChatOpenAI # 配置本地模型:核心就是指向 llamafile 的 OpenAI兼容接口 llm = ChatOpenAI( base_url="http://ip:8080/v1", # 本地llamafile的API地址,固定 api_key="not-needed", # 必填但无效,随便填即可,llamafile不需要鉴权 model_name="not-needed", # 模型名随便填,不影响调用,llamafile会忽略 temperature=0.7, # 回答随机性,0=严谨,1=发散 max_tokens=128 # 最大生成字数 ) # 方式1:简单单轮对话 result = llm.invoke("你好") print(result.content)