DeepSeek-OCR 本地部署实践(适合新手、windows环境)

news/2025/10/24 23:27:11/文章来源:https://www.cnblogs.com/teamers/p/19164041

上效果:

image

image

结论:windows官方示例仅可转换图片,linux下官方示例可转图片和PDF文件

原因是转换PDF的代码用到了vllm,vllm仅可在linux系统下部署使用。(仅官方示例,如果自己编写代码进行PDF转图片,并处理多张图片的上下文语义,那么就没差别了)

deepseek-ocr 官方库提供了 transformers和vllm两种推理解析方式,transformers仅提供了图片识别的示例,vllm提供了图片识别和pdf识别两种示例。vllm仅可在linux系统下部署使用。

如果只需要图片识别,windows和linux两种系统都可以。如果需要pdf识别,则需要使用linux系统部署。

我的电脑环境:

windows 11、显卡 5060

deepseek-ocr官方代码库:https://github.com/deepseek-ai/DeepSeek-OCR

需要安装的内容:

git、python、Anaconda、cuda、pytorch(torch、torchvision、torchaudio、numpy)

我电脑使用的版本如下

image

环境安装中因为CUDA版本不匹配,模型识别不了,反复切换过几次cuda、troch、flash_attn的版本。

这些软件的版本需要根据个人电脑显卡型号确定,一定要根据自己的电脑配置情况下载匹配版本,下边会详细介绍。

 

安装部署过程

1、安装git:

为了拉取deepseek-ocr的项目代码(如果电脑已经安装跳过,安装系统可以使用的版本即可)

https://git-scm.com/install/windows

从官网下载对应电脑程序,一步步安装即可。

2.获取deepseek-ocr 代码仓库

从电脑上想安装deepseek-ocr的文件夹下输入cmd

image

在打开的命令窗口中,输入 git clone https://github.com/deepseek-ai/DeepSeek-OCR.git

3.安装python 3.12.9

deepseek-ocr 推荐的python版本是3.12.9,建议安装此版本

https://www.python.org/downloads/windows/

下载自己电脑适合的版本

image

注意:下边两个复选框要勾上再点 安装或 install ,之后一步步安装即可。

image

不会安装的可以 参考:https://blog.csdn.net/biancheng_syz/article/details/139995035

安装完成后在命令框中 输入 python --version,返回如下结果即可。

image

4.安装 Anaconda

可以从官网或镜像网站中下载

官网:https://www.anaconda.com/download

镜像地址:https://repo.anaconda.com/archive/

image

一步步安装即可,此处记得勾选下

image

安装完成后在环境变量中增加配置

image

image

image

image

 

增加以上4项内容,D:\softInstall\Anaconda是我的安装目录,需要换成你自己的安装目录,配置完成后cmd 输入conda --version,返回如下信息即安装成功

image

5.安装CUDA (一定要注意版本、一定要注意版本

deepseek推荐使用11.8,不用必须11.8,之上即可。

image

安装之前 cmd 进入命令行,检查驱动和cuda支持版本

image

我的是12.8,进入cuda官网下载https://developer.nvidia.com/cuda-toolkit-archive

根据自己电脑型号选好

image

image

选择对应版本下载后,一路下一步安装即可,安装完成后,cmd, 输入 nvcc -V,返回版本信息即可

image

6.安装PyTorch(一定要注意版本、一定要注意版本

deepseek-ocr自己环境使用的 2.6.0,我这使用的 2.7.0,因为适配cuda12.8版本的最低的 pytorch就是2.7.0

pytorch版本需要需要根据前边安装的cuda和python的版本进行安装匹配规则解释

cu128 代表 cuda版本是12.8,cp312 代表 python版本 3.12.X win就是windows;

image

pytorch 可以使用命令下载安装,也可以下载文件后本地安装,我使用的下载后本地安装

下载地址

https://download.pytorch.org/whl/nightly/cu128 其中128为显卡版本号

image

进入对应文件目录,按照上边说的匹配规则查找对应文件下载到本机。

进入下载完成的文件夹目录,在目录中输入cmd,

image

 

打开命令行后依次输入命令安装,install 后为下载的文件名 注意改成自己的

pip install torch-2.7.0+cu128-cp312-cp312-win_amd64.whl

pip install torchaudio-2.7.0+cu128-cp312-cp312-win_amd64.whl

pip install torchvision-0.22.0+cu128-cp312-cp312-win_amd64.whl

pip install numpy-2.3.3-cp312-cp312-win_amd64.whl

 

7.创建deepseek-ocr项目并激活

进入第一步拉取的deepseek-ocr项目目录下 输入cmd,打开命令窗口

image

conda create -n deepseek-ocr python=3.12.9 -y

conda activate deepseek-ocr

执行成功效果如下

image

如果第一次执行activate,需要先执行下 conda init 后再执行 conda activate deepseek-ocr 即可。

8、安装依赖文件

继续在上边项目命令窗口中执行 pip install-r requirements.txt ,安装项目依赖的一些文件

9.安装flash-attn

此文件也要注意版本,很多人安装不上就是卡在这一步了。

问题1:在线安装成功率低

在线安装可以使用类似命令:pip install flash-attn==2.7.4 --no-build-isolation

我采用的方式是下载到本地再安装。

官网推荐使用的2.7.3跟我的cuda12.8,PyTorch 2.7.0不匹配,所以按照规则,去下载使用自己的版本

此处window环境下编译的版本不好找,废了半天劲找到了这个宝藏地址,注意cu、torch、cp版本号,分别需要与cuda、PyTorch、python的版本保持一致

https://github.com/kingbri1/flash-attention/releases

image

问题2:文件下载到本地时 名称中的+号会丢失变为空白 需修改下文件名补充上

image

下载完成后,在对应目录cmd打开命令窗口安装flash_attn,执行

pip install flash_attn-2.7.4.post1+cu128torch2.7.0cxx11abiFALSE-cp312-cp312-win_amd64.whl

提示success 的一段提示即代表安装成功

10.下载模型文件到本地

ModelScope下载地址:https://modelscope.cn/models/deepseek-ai/DeepSeek-OCR/summary

按照提示下载模型到本地即可

image


11、更改deepseek-ocr中模型文件目录,和要解析的输入输出文件目录

这就是开头提到的windows局限的地方,

linux下边 可以在安装上vllm模型,按照这种方式 对pdf进行识别解析。

https://github.com/vllm-project/vllm/releases/tag/v0.8.5

image

windows下暂不支持,如多直接使用官方示例在DeepSeek-OCR-hf下仅可对图片进行识别,未提供直接可用的PDF识别示意代码。可以自己写代码处理PDF转换(后续上示例)。

image

image

12.上才艺

image

image

 

输入目录种的文档:

image

一个解析识别后的图片示意、一个markdown的文件,一个图片文件夹

 

image

image

效果还是挺好的,识别速度、准确率都不错。后边做分析和项目实战再做分享。

 

 

 

 

 

 

 

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/945759.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

10月24日日记

1.今天学习英语 2.明天出去看博物馆 3.平衡二叉树(AVL、红黑树)为什么需要旋转操作?

2025.10.24总结 - A

今天没课,加油

2025年AI优化:AI优化公司技术实力哪家好

AI优化服务商:解锁企业智能增长的密钥 ——2025年AI优化企业核心实力与实战价值深度解析 AI优化企业如何重构数字竞争生态? 第一部分:AI优化企业排行榜——技术穿透力与商业价值的双重验证 在生成式AI重构商业规则的…

总账系统核心设计 - 智慧园区

在企业数字化转型的浪潮中,总账系统不仅是财务管理的底座,更是业务与财务融合的关键枢纽。本文将从架构设计、数据流动、权限控制等核心维度出发,系统拆解总账系统的设计要义,助力财务信息化从“可用”走向“高效”…

02 MULTI IDE软件安装及新建工程

02 MULTI IDE软件安装及新建工程1.MULTI-IDE简介 MULTI IDE是Green Hills Software提供的一款专业级集成开发环境(Integrated Development Environment),专为嵌入式系统开发设计,配合GHS编译器和调试器,广泛用于汽…

10月24号

今天进行了复习。 晚上进行了外语学习。

10月阅读笔记(3)

《程序员修炼之道:从小工到专家》阅读笔记 作为一名大二计算机专业学生,读《程序员修炼之道》前,我总觉得写代码就是“能跑通功能就行”——课后作业调通逻辑、实验报告凑够代码行数,就算完成任务了。但这本书像给…

使用Python将iOS快照从KTX格式转换为PNG

本文详细介绍了如何通过Python解析iOS设备中存储为KTX格式的应用快照文件,包括LZFSE解压缩、ASTC纹理数据转换等技术细节,并提供了完整的代码实现方案。KTX to PNG in Python for iOS snapshots iOS上的应用快照以KT…

我有一个好主意,既然我之前写了一个AI Vtuber

我有一个好主意,既然我之前写了一个AI Vtuber,那么为什么不直接挪过来替换掉看板娘呢? 还能做到实时共同

python操作pdf的库

import pdf2docx import PyPDF2 import spire 参考: https://www.cnblogs.com/geekbruce/articles/18427413

第二十天

今日专注于数据库核心的增删改查指令学习 写INSERT语句时,体会到“精准”是第一原则——字段名与值必须严格对应,少一个逗号、错一个数据类型,都会让数据无法顺利“入驻”表中,这像给档案柜分类归档,每一份资料都…

AI优化服务商:AI优化公司技术实力榜单

AI优化服务商:解锁智能搜索时代的流量密码 2025年AI优化企业核心价值与行业标杆解析 一、AI优化企业排行榜:技术实力与实战经验的双重验证 在生成式AI重塑搜索生态的2025年,企业竞争已从“关键词堆砌”转向“场景化…

Sentence Transformers

Sentence Transformers https://www.sbert.net/ https://github.com/huggingface/sentence-transformersSentenceTransformers Documentation Sentence Transformers (a.k.a. SBERT) is the go-to Python module for…

2025最新平台,快手刷站自助下单_新站如何用快手刷站服务?

新手做快手最头疼什么?视频发出去半天没播放量,账号像个“隐形人”一样没人看。好多人听说“快手刷站自助下单”能快速破冰,但又怕操作不当导致封号限流。别急,今天咱们就掰开揉碎说说,怎么安全高效地用这些工具,…

免费刷快手粉双击网站,刷粉真的安全吗

你是不是也在找免费刷快手粉双击网站?看到别人账号粉丝蹭蹭涨,自己辛苦拍的视频却没几个人看,心里确实着急啊。但有些朋友想要走这种捷径,又担心会不会有问题,这该怎么办呢?今天咱们就聊聊这个话题,希望能帮到你…

免费24小时业务下单平台哪家靠谱,真的免费吗,如何安全使用

你是不是也在找那种​​真正免费、24小时都能用​​的业务下单平台?特别是做抖音、快手这些短视频的朋友,经常会在深更半夜有个急活儿,或者想趁着流量好的时候赶紧推一把,但很多平台客服下班了,或者收费高得吓人。…

北京AI优化:AI优化企业排行榜与深度解析

北京AI优化服务商:AI优化企业推荐指南 AI优化企业排行榜与深度解析 在当今数字化浪潮中,人工智能(AI)优化已成为企业提升效率、降低成本的关键手段。作为科技创新中心,北京汇聚了众多AI优化服务商,为企业提供智能…

素数有无穷个的拓扑证明

对 \(a,b\in \mathbb Z,b>0\),令 \(N_{a,b}=a+b\mathbb Z\). \(\{N_{a,b}\mid a,b\in\mathbb Z,b>0\}\) 构成 \(\mathbb Z\) 的一组(拓扑)基:因为 \(\mathbb Z=N_{0,1}\) 且 \(N_{a,b_1b_2}\subset N_{a,b_1…