[PaperReading] DeepSeek-OCR: Contexts Optical Compression

news/2025/10/21 22:50:41/文章来源:https://www.cnblogs.com/fariver/p/19156071

目录
  • DeepSeek-OCR: Contexts Optical Compression
  • TL;DR
  • Method
    • DeepEncoder
    • DeepDecoder
  • Data
  • Experiment
  • 总结与思考
  • 相关链接

DeepSeek-OCR: Contexts Optical Compression

link
时间:25.10.20
单位:DeepSeek
作者相关工作:Haoran Wei,加入DeepSeek之前在旷视,之前做过Vary。
项目主页:
https://github.com/deepseek-ai/DeepSeek-OCR

TL;DR

探索的任务:通过2D OCR能否压缩long context信息。
模型架构:核心模块包括DeepEncoder与DeepSeek3B-MoE-A570M的Decoder。

  • DeepEncoder:将高分辨率的图片压缩为少量视觉token。
  • DeepSeek Decoder:输入image tokens + prompts,输出结果
    意义:该工作对于long context压缩 以及 记忆遗忘机制 都有巨大的潜力。

Method

image

DeepEncoder

SAM(80M):输入图像首先由SAM-base进行处理,该模型基于窗口注意力机制,对图像进行细致的视觉特征提取(而非直接出MASK)。
Conv: 两步Conv下采样,将视觉特征编码经过16x下采样进行压缩
CLIP(300M):Image Encoder部分,再将patch embedding层移除

Q:什么是压缩率?
压缩率 = 原始文本token数量 / 使用的视觉token数量​

Q:压缩率高有什么好处?
DeepSeekOCR提供一种新文本表示方式,光学编码:将原始文本内容渲染成图像格式。压缩率高,意味着光学编码后,DeepSeek-Encoder编码出的视觉token信息密度比text token还高。在实际应用中,可能不需要专门光学编码,可以是:

  • 文档扫描件或截图
  • 程序化生成的文本图像
  • 现有的文档图像资料

DeepDecoder

  • 采用混合专家模型(MoE)设计,共64个专家
  • 推理时激活6个路由专家+2个共享专家(约570M激活参数)
  • 在保持3B模型表达能力的同时,享受500M小模型的推理效率

Data

多批次数据构成
image

Experiment

不同压缩率对应的实验结果
image

与多阶段OCR、E2E OCR方法的对比
image

总结与思考

10倍压缩率情况下能达到97%的识别成功率,说明至少有97%的text信息已经被编码进来了,有10倍的压缩率,那证明比直接使用text作为输入性价比更高,在long context的场景下还是非常有价值的。

相关链接

https://www.zhihu.com/search?type=content&q=DeepSeek-OCR%3A Contexts Optical Compression

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/942741.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Win10安装WindowsCamera相机

在一些很旧的win10非正式版中,相机可能缺失,很老的win10只能用过时的WindowsCamera相机。这里给出一个安装包,当然新系统也可安装 夸克网盘下载 首先,打开开发者模式(如果有),不然无法安装然后右键打开——以管…

简易的本地部署OI-Wiki方法 for CCSP

在联网环境下执行 git clone https://gitee.com/OI-wiki/OI-wiki.git -b gh-pages拷贝文件后,在离线环境下执行 cd OI-wiki python -m http.server即可本地运行OI-wiki, 默认在localhost:8000上运行

[systemd] 如何为systemd服务进行资源限制

[systemd] 如何为systemd服务进行资源限制$(".postTitle2").removeClass("postTitle2").addClass("singleposttitle");目录01 简介02 查看限制03 可配置的参数3.1 CPU限制3.1.1 CPU时间…

以TrustedInstaller/System用户运行软件

有时电脑上会出现一些不明杀毒软件,直接删除是删不掉的:这时候我们需要TrustedInstaller/System权限,这个软件就派上用场了,这个软件并非漏洞提权,而是administer权限平级运行 警告:使用本工具需要有一定的计算机…

10月21号

今天上午进行了激光工程实训

React Native 启动流程 (Android版)

React Native 启动流程 (Android版)React Native 启动流程 (Android版) 我们从骨架项目MainActivity说起.其继承实现了ReactActivity. 进入MainActivity,先反射MainActivity执行其父类ReactActivity和自己的构造方法。…

NOIP 二十六

区间DPA. 圆心处向周围连边就将整个圆分成了若干个不相关的部分。断环成链,记 \(f[l, r]\) 为 \([l, r]\) 内连通的最小代价,转移考虑是否选择 \((l, r)\) 这条边。 枚举分界点转移。 注意当目前区间大于半圆的时候不…

Say 题选记 (10.19 - 10.25)

P3702 [SDOI2017] 序列计数 首先至少 1 个质数可以容斥成随便选 - 只选合数。然后注意到第二维很小,直接矩阵快速幂即可。Code #include <bits/stdc++.h> using namespace std; const int M = 2e7 + 5, K = 1e2…

宝塔面板

为什么需要宝塔面板linux终端是一个全是命令行的东西,不便于管理因此安装宝塔面板,就是一个服务器的可视化桌面或者控制中心一键安装运行环境(最核心的便利) 你想在服务器上搭建一个网站,通常需要安装:Web服务器…

泰勒展开

我们不妨令 \(x\geq x_0\)。 \[f(x) = f(x_0) + \int^x_{x_0}f(t)\text{d}t \]然后我们换一下积分变量。 \[f(x) = f(x_0) + \int^x_{x_0}f(t)\text{d}(t - x) \]然后我们分部积分。 \[f(x) = f(x_0) + \int^x_{x_0}(t…

机器学习基础 -- 线性回归模型

线性回归模型在机器学习中,线性回归模型是一种基础的模型算法,其数学原理通过最小二乘法使欧式距离(均方误差)最小化来求出w和b。本篇文章将介绍一些数学原理,给定几个数据并通过scikit-learn库中集成的LinearReg…

因果机器学习算法新进展解析

某中心将新型因果机器学习算法开源至DoWhy库,这些算法基于图形因果模型,能执行根因分析、因果结构学习和分布变化归因等复杂因果查询,已在供应链和云服务等多个场景得到实际应用。开源因果机器学习算法 我们很高兴宣…

一键生成爆款文章,并自动发布!

最近在疯狂的玩 n8n,也越来越发现他的强大之处了。 同时也感叹目前的 AI 生态真的很完善,而且 AI 的成果也越来越好了,甚至可以超过很多普通人。 这不,今天刚搭建了一个:一键生成小红书爆款文章,并自动发布的工作…

软件工程作业三

计算机科学与技术 王阿丽亚阿不来海提 3223004639 计算机科学与技术 阿依古再丽艾力
3223004595这个作业属于哪个课程 https://edu.cnblogs.com/campus/gdgy/Class34Grade23ComputerScience这个作业要求在哪里 https:…

1188. 设计有限阻塞队列

1188. 设计有限阻塞队列 题目描述实现一个拥有如下方法的线程安全有限阻塞队列:BoundedBlockingQueue(int capacity) 构造方法初始化队列,其中capacity代表队列长度上限。void enqueue(int element) 在队首增加一个e…

MySQL 创建和授权用户

查看所有用户 SELECT user, host FROM mysql.user;查看指定用户的权限 SELECT * FROM mysql.user WHERE user=root创建和授权用户创建一个用户CREATE USER readonly@% IDENTIFIED BY 123456;给用户赋予只读权限GRANT S…

MySQL分页解决方案

一、深分页问题背景 当分页偏移量(OFFSET)过大时(如LIMIT 100000, 20),MySQL需要扫描并丢弃前100,000条记录,导致:查询性能急剧下降 服务器资源浪费 响应时间变长二、解决方案详解 1. 游标查询(Cursor-based P…

二维坐标旋转公式推导

二维坐标旋转公式一、核心概念 在二维坐标系中,一个点围绕某个旋转中心旋转时,其坐标会发生变化。 旋转可分为两种情况:绕坐标原点 (0,0) 旋转 绕任意点 (cx, cy) 旋转推导基于三角函数与极坐标的关系。二、绕原点 …

Failed to resolve: org.webrtc:google-webrtc:1.0.32006

参考文章:https://blog.csdn.net/rosyrays1/article/details/148427678 这是一个在安卓端实现音视频功能时遇到的问题 解决方案2: gradle dependencies方式: 使用一些开源社区自制仓库的webrtc包名 比如这个(亲测可…

云计算简单算法练习题

云计算简单算法练习题 No1 LCR 128. 库存管理 I 仓库管理员以数组 stock 形式记录商品库存表。stock[i] 表示商品 id,可能存在重复。原库存表按商品 id 升序排列。现因突发情况需要进行商品紧急调拨,管理员将这批商品…