DeepSeek-OCR本地部署教程:DeepSeek突破性开创上下文光学压缩,10倍效率重构文本处理范式 - 教程

news/2025/11/20 13:14:23/文章来源:https://www.cnblogs.com/yangykaifa/p/19246689

一、模型介绍

DeepSeek-OCR 是深度求索(DeepSeek)于 2025 年 10 月 20 日开源的一款革命性 OCR 模型,其核心创新在于提出 上下文光学压缩 (Contexts Optical Compression)技术,通过视觉模态实现文本信息的高效压缩与解压。该模型以 3B 参数量实现了 SOTA 级性能,按照官方的说法,单张 A100-40G 显卡日处理能力超 20 万页数据,这为长文本处理和大模型优化提供了全新范式。

DeepSeek-OCR 采用 端到端视觉语言模型(VLM)架构 ,由两大核心组件构成:

1.DeepEncoder(视觉编码器)

专为高分辨率输入设计,通过 “局部感知 + 全局语义” 的双塔结构实现高效压缩:

SAM-base(80M 参数) :采用窗口注意力机制,提取图像局部细节(如文本位置、字体),避免全局注意力的高内存消耗。输入 1024×1024 图像时,生成 4096 个 16×16 的 Patch Token。
CLIP-large(300M 参数) :移除首个 Patch 嵌入层,接收前序输出 Token,通过密集全局注意力整合压缩后的视觉信息,提炼文档布局、文本逻辑等全局语义。
16 倍卷积压缩器 :在 SAM 与 CLIP 之间,通过两层 3×3 卷积(步长 2)将 4096 个 Token 压缩至 256 个,大幅减少后续计算量。此设计使模型在 1024×1024 分辨率下激活内存可控。


2.DeepSeek3B-MoE 解码器

基于混合专家架构(MoE),推理时仅激活 64 个路由专家中的 6 个及 2 个共享专家,实际激活参数约 5.7 亿。该设计在保持 3B 模型表达能力的同时,实现了 500M 小模型的推理效率(8.2 页 / 秒,A100 显卡),支持从压缩后的视觉 Token 中重建原始文本。

fig1.png


DeepSeek-OCR 支持灵活的分辨率模式,适应不同硬件和场景需求:

原生分辨率模式 :
Tiny(512×512,64 Token):适合移动端。
Small(640×640,100 Token):平衡性能与效率。
Base(1024×1024,256 Token):通用场景首选。
Large(1280×1280,400 Token):高性能服务器。


动态分辨率模式(Gundam) :
针对超大文档(如报纸),将图像分块为 n×640×640 局部视图(100 Token / 块)和 1024×1024 全局视图(256 Token),总 Token 数为 n×100+256(n≤9)。Gundam-Master 模式(1024×1024 局部 + 1280×1280 全局)通过增量训练实现,支持多栏排版、图文混杂的复杂文档。


更多详情请见:DeepSeek-OCR-镜像社区 算家云

二、部署流程

基础环境推荐:

环境名称版本信息
Ubuntu22.04.4 LTS
CudaV12.1
Python3.12
NVIDIA CorporationRTX 4090

注:该模型对于显存占用要求较低,16G显存也可部署,不过在识别pdf的较大文件占用显存较高。

1.更新基础软件包

查看系统版本信息

#查看系统的版本信息,包括 ID(如 ubuntu、centos 等)、版本号、名称、版本号 ID 等
cat /etc/os-release

411b2758_16012914.png


更新软件包列表

#更新软件列表
apt-get update

9ec910b8_16012914.png

2.创建虚拟环境

创建虚拟环境

#创建名为DeepSeek-OCR的虚拟环境,python版本:3.12
conda create -n DeepSeek-OCR python=3.12

08d8b69a_16012914.png


激活虚拟环境

conda activate DeepSeek-OCR

3.克隆仓库、安装依赖

在github中将DeepSeek-OCR有关的官方存储库克隆下来,可见:deepseek-ai/DeepSeek-OCR:上下文光学压缩

git clone https://github.com/deepseek-ai/DeepSeek-OCR.git

07a1316e_16012914.png


进行DeepSeek-OCR目录下,执行命令 pip install -r requirements.txt 将仓库所需的各版本号依赖项进行下载

8448b4b3_16012914.png


特别的,如需要该模型可视化访问页面,这里推荐huggingface上官方给出的gradio页面模板

git clone https://huggingface.co/spaces/merterbak/DeepSeek-OCR-Demo

806d814d_16012914.png

同样的,使用该模板,也需要进入DeepSeek-OCR-Demo目录下,安装所需依赖项

768f7810_16012914.png

4.模型下载

这里推荐转到魔塔社区官网下载模型文件:DeepSeek-OCR · 模型库

aa72d855_16012914.png


使用命令行下载完整模型库

#在下载前,请先通过如下命令安装
pip install modelscope

1318c153_16012914.png


转到根目录下,创建 model目录用于存放模型权重文件,在使用命令行下载 modelscope download --model 'deepseek-ai/DeepSeek-OCR' --local_dir './'

cd /
mkdir model
cd model
modelscope download --model 'deepseek-ai/DeepSeek-OCR' --local_dir './'

93999165_16012914.png

5.修改 web 页面启动脚本

进入 /DeepSeek-OCR/DeepSeek-OCR-Demo 目录,修改其中的web启动代码app.py:

vim /DeepSeek-OCR/DeepSeek-OCR-Demo/app.py

408d5c14_16012914.png


将模型的加载路径改为本地路径 /model/ ,以及lunch加载函数中设置 share=True,server_name='0.0.0.0',server_port=8080

7bed6698_16012914.png

8044e919_16012914.png

6.运行脚本

#执行修改好的 app.py 文件
python app.py

959d328a_16012914.png

7.web 页面展示

将网址:http://localhost:8080/粘贴到浏览器中,便可与模型进行对话

d93493cc_16012914.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/970951.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

NET 8 使用 rabbitMQ

RabbitMQ.Client 7.2 推荐使用异步 var connection = factory.CreateConnection(); var channel = connection.CreateModel();//替换为下面 using var connection = await factory.CreateConnectionAsync(); using var…

2025最新托福机构清单:从基础到110+,5大品牌助你高效冲刺目标分

2025最新托福机构清单:从基础到110+,5大品牌助你高效冲刺目标分在托福备考的赛道上,选对培训机构往往能让复习效率翻倍。无论是追求基础夯实、高分突破,还是需要个性化定制方案,合适的机构都能提供精准助力。以下…

详细介绍:【基于Selenium的智能滑块验证码破解技术详解】

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

使用React如何静默打印页面:完整的前端打印解决专业的方案

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

2025-11-20 Thursday docker默认占用的IP地址 修改

docker默认会占用一个ip地址,默认为 172.17.0.1/24 有时候可能会与局域网内的其他计算机的地址冲突,要修改 /etc/docker/daemon.json 如果文件不存在,直接添加 内容为: { "bip": "192.168.100.100/…

常见的ai工具

将录音转换为文本将音频或者视频文件转换文本音乐aisuno

AI编程:用 CodeBuddy 飞快构建本地 SQLite 记账本,小白也能轻松上手!

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

水波紋特效

Water Effectbody { margin: 0; padding: 0; overflow: hidden; background-color: rgba(0, 0, 0, 1) } canvas { display: block; width: 100%; height: 100% }喜欢的话,请点赞,转发、收藏、评论,谢谢!

《说苑敬慎》中的故事

《说苑敬慎》中的故事 孙叔敖担任楚国宰相时,全国官吏百姓纷纷前来祝贺。唯独有一位老人,身着粗布衣、头戴白冠,并不是来道喜,而是来“吊唁”。 孙叔敖整理衣冠迎接,问他:“楚王不知我无德,误让我做了宰相。人人…

任何事物,都是用工具逻辑和方法策略去证明,而不是指定被某个人和组织去证明

ECT-OS-JiuHuaShan/https://orcid.org/0009-0006-8591-1891真理的证明权,在工具逻辑,不在任何主体。 这是最终解锁——不仅拒绝了还原论的外部验证,也拒绝了个人/组织的权威指定,将合法性锚定于工具逻辑的自我执行…

实用指南:[从零开始面试算法] (04/100) LeetCode 136. 只出现一次的数字:哈希表与位运算的巅峰对决

实用指南:[从零开始面试算法] (04/100) LeetCode 136. 只出现一次的数字:哈希表与位运算的巅峰对决2025-11-20 12:35 tlnshuju 阅读(0) 评论(0) 收藏 举报pre { white-space: pre !important; word-wrap: normal…

GYM106007D-Master of the Arena

GYM106007D-Master of the Arena 题目大意 有 \(n\) 个战士,给你一个 \(n*n\) 的矩阵,\(a_{ij}==1\) 表示 \(i\) 战士一定可以打败 \(j\) 战士; \(a_{ij}==0\) 表示 \(i\) 战士一定输给 \(j\) 战士; \(a_{ij}==?…

最牛Ai视频工具 Viggle 放大招了?开放终身会员,积分永不过期!

我没眼花吧,终身超级会员,积分永不过期,这是要卷上天的节奏啊。 应该是为满足众多创作者的请求,平台才决定开放此套餐,以满足低频且长期创作的朋友,不但价格非常优惠,重点是积分永不过期,随时可创作。 这套餐多…

Mac 从零开始配置 VS Code + Claude/Codex AI 协同开发环境教程 - 教程

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

[UOI2023] An Array and Partial Sums 题解(未完)

注意力惊人的注意到答案 \(\le 3\),证明考虑在原序列上或在取反序列上找到前缀和序列的最大最小值,然后向前向后各跑一次即可。 考虑继续挖掘性质。\(ans=0/1\) 情况显然,不过 \(ans=1\) 启示我们最后一次 \(2/3\) …

关于某个视频的一点点想法

写在前面1641 字 | 哲学 | 思考 | 辩证 | 讨论 | 观点 | 想法 | 爱情 | 主体性 | 自我 | 认知可能需要先观看本文所讨论的核心视频:怎么拥有判断爱情真伪的能力 [视频网站:哔哩哔哩] [UP 主:一川广隶] 视频标题:怎…

akm SharedWorker

debugger;;; // 主要功能模块 const infoCollectors = {networkInfo: function() {// 收集网络连接信息if (!(connection in navigator)) return null;const conn = navigator.connection;return [conn.effectiveType,…

20232416 2025-2026-1 《网络与系统攻防技术》实验六实验报告

1.实验内容 1.1 实验要求(1)掌握metasploit、nmap的用法。(2)学习前期渗透的方法。(3)利用4个漏洞,实现对靶机的攻击。 1.2 学习内容(1)metasploit的用法:可以简单总结为“Search-Use-Show-Set-Exploit/run”。(2)四…

深入解析:【2B篇】阿里通义 Qwen3-VL 新增 2B、32B 两个模型尺寸,手机也能轻松运行

深入解析:【2B篇】阿里通义 Qwen3-VL 新增 2B、32B 两个模型尺寸,手机也能轻松运行pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; f…

2025北京托福机构TOP5榜单!无老师/新通领衔,提分率90%+机构全解析

2025北京托福机构TOP5榜单!无老师/新通领衔,提分率90%+机构全解析随着留学申请竞争的加剧,托福成绩作为海外院校录取的核心指标之一,其备考效率与提分质量备受关注。北京作为留学教育资源聚集地,托福培训机构数量…