【VLM】Visual Merit or Linguistic Crutch? 看DeepSeek-OCR

note

  • 论文证明了 DeepSeek-OCR 的强性能很大程度上来自语言模型的“语言先验”,而非真正的深度视觉理解,并指出这种依赖使得它在语义扰动或超长上下文下表现脆弱。

文章目录

  • note
  • 一、Visual Merit or Linguistic Crutch?
  • 二、实验
    • RQ1:句子级语义破坏如何影响DeepSeek-OCR?
    • RQ2:单词级语义破坏如何影响DeepSeek-OCR?
    • RQ3:语言先验依赖在不同VLM(视觉语言模型)和OCR架构中如何体现?
    • RQ4:DeepSeek-OCR在QA(文本问答)和VQA(视觉问答)任务中的表现如何?
    • RQ5:光学压缩的上下文长度限制是什么?
  • Reference

一、Visual Merit or Linguistic Crutch?

《Visual Merit or Linguistic Crutch? A Close Look at DeepSeek-OCR》,https://arxiv.org/pdf/2601.03714,相关实验数据在https://anonymous.4open.science/r/ACL26-84B5/Readme.md

“依赖语言先验”并非DeepSeek-OCR独有的问题,而是“视觉编码+LLM解码”这类VL/OCR模型的架构共性,Qwen2.5-VL、HunyuanOCR、Nougat等所有端到端模型的通病,核心根源就是“视觉对齐LLM做解码”的设计逻辑。这类模型的核心设计是“视觉提取特征→LLM负责文本生成”,而LLM的本质是基于语言统计规律建模,这就注定了LLM的解码逻辑优先依赖已知语言模式(词汇、句法、语义),而非纯粹的视觉信号,视觉特征只是“触发信号”,当视觉信息模糊(高压缩、字符紊乱)时,LLM会自然调用自身的语言先验“补全”,形成所谓的“幻觉”。

从另一个角度上看,这种工作价值其实不在于否定单个模型,而在于量化了这种依赖的严重程度(无先验时精度暴跌60%-80%),并点出了架构层面的trade-off:追求token压缩效率,必然以牺牲视觉鲁棒性为代价,现有OCR/VLM评估多聚焦自然文本准确率,通过“语义破坏”“零语言先验”“长文本压力测试”等方法,是一种“模型真实视觉能力”的评估方式。

二、实验

论文聚焦在一个核心评估问题:DeepSeek-OCR 的高性能是来自真实的视觉理解能力,还是模型强大的语言先验在“脑补”文本?

RQ1:句子级语义破坏如何影响DeepSeek-OCR?

实验设计上,基准数据采用Fox基准(112页英文文档,token长度600-2500),将真实文本渲染为图像(text2png)作为干净基准。

进行语义破坏:替换关键名词、动词和短语为“视觉相似但语义荒谬”的表达(如“butterfly”→“breadflutter”),保留字符形状和布局,仅消除语义连贯性,渲染为扭曲图像(distort)。

在DeepSeek-OCR的Tiny(高压缩)、Small、Base(低压缩)三种模式下,以OCR精度为指标对比text2png与distort的性能。结论是句子级语言先验是高压缩模式下的“语言拐杖”——视觉token稀缺时,模型依赖全局语义上下文重构文本;视觉token充足时(Base模式),对语言先验的依赖显著降低。

RQ2:单词级语义破坏如何影响DeepSeek-OCR?

实验设计上,基准数据延续Fox基准,设计3类单词级扰动策略:Swap:5%/10%单词随机交换2个字母(轻微拼写错误,语言先验可修复);Shuffle:5%/10%单词完全打乱字母顺序(破坏单词结构,保留字符分布);Zero-Prior:生成无词汇/句法结构的随机字符序列(完全无语言先验)。

评估同样在三种模式下测试OCR精度,结果是轻微扰动已导致性能下降,无语言先验时性能崩溃模型严重依赖词汇级语言先验,所谓“高压缩精度”本质是语言幻觉(基于先验猜测),而非真实视觉识别能力。

RQ3:语言先验依赖在不同VLM(视觉语言模型)和OCR架构中如何体现?

实验设计上,对比13种不同架构的VLM/OCR模型(参数125M-72B),包括DeepSeek-OCR(Tiny/Small)、端到端模型(HunyuanOCR、Nougat、Qwen2.5-VL等)、传统流水线模型(PaddleOCR-v5、MinerU),测试场景包括自然文本(有语言先验)与Zero-Prior随机文本(无语言先验),对比精度变化。

结果是端到端模型普遍依赖语言先验,传统流水线模型鲁棒性强,语言先验依赖是端到端架构的共性问题,传统流水线模型在无语言先验场景下更可靠。

RQ4:DeepSeek-OCR在QA(文本问答)和VQA(视觉问答)任务中的表现如何?

实验设计上,扩展Fox基准,为每页文档标注3个事实性问答对。对比模型包括VLM基线:Qwen2.5VL-3B/7B、Qwen3VL-4B/8B等;QA基线:Qwen2.5-3B、Llama3.2-3B等(与DeepSeek-OCR参数规模相当)。测试DeepSeek-OCR(VQA模式)、直接输入文本的LLM(QA模式)的问答准确率。

结果是VQA性能接近随机水平,标准LLM直接处理文本时,QA准确率超90%。光学压缩破坏了语义结构,模型仅能重构表面文本,无法保留下游推理所需的深层语义关系,且自身推理能力因过度优化文本重构而受损。

RQ5:光学压缩的上下文长度限制是什么?

实验设计上,长文本数据集使用GPT-5.1生成5个5k词故事,重复至20,000token,按500token步长分割为40个片段(500-20,000token),渲染为文档图像,在DeepSeek-OCR的Tiny/Small/Base/Large四种模式下,测试不同token长度的OCR精度。

结果是光学压缩存在信息论瓶颈,固定网格视觉编码器的信息承载能力有限,超过8.5ktoken后信噪比低于解码阈值,反而加剧长上下文瓶颈(与设计目标相悖)。

在 DeepSeek-OCR 中,随着需要还原的输入文本(Input Text)变长、对应的解码 token 序列变长,模型的输出质量会系统性退化,说明其高性能并非来自稳定的视觉识别,而是越来越依赖语言模型的语言先验。

Reference

[1] Visual Merit or Linguistic Crutch? A Close Look at DeepSeek-OCR

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1215421.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Go进阶之反射

Go语言是静态类型语言.比如int float32 []byte32等等.每个变量都有一个静态类型.并且在编译的时候就已经确定了.type Myint int var i int var j Myint变量i和j不是相同类型.因为二者拥有不同的静态类型.尽管二者底层的类型都是int.但在没有类型转换的情况下是不可以相互赋值的…

2026 年 1 月仿古瓦厂家推荐排行榜,中式仿古瓦,小青瓦仿古瓦,定制仿古瓦,古建屋面瓦公司推荐,甄选匠心工艺与耐久品质!

2026年1月仿古瓦厂家推荐排行榜:甄选匠心工艺与耐久品质 随着文化自信的回归与文旅产业的蓬勃发展,中式仿古建筑及传统风貌街区建设迎来了新一轮热潮。作为承载建筑神韵与历史文脉的关键元素,仿古瓦,尤其是中式仿古…

.bat脚本新建文件夹【项目结构】

一、源码 当有原来的同名文件时保留原来的文件夹【仅限文件夹同名保留】 NewFile.bat echo off chcp 65001 > nul 2>&1 setlocal enabledelayedexpansion:: 获取脚本所在的文件夹路径 set "script_dir%~dp0" echo echo 目标创建路径:%script_…

2026 年 1 月工业醇类及溶剂厂家推荐榜单:乙醇/无水乙醇/二丙酮醇/异丙醇/乙二醇/正丁醇/工业酒精/甲醇/醇酸漆稀释剂/丙二醇甲醚等源头实力厂家精选

2026 年 1 月工业醇类及溶剂厂家推荐榜单:乙醇/无水乙醇/二丙酮醇/异丙醇/乙二醇/正丁醇/工业酒精/甲醇/醇酸漆稀释剂/丙二醇甲醚等源头实力厂家精选 在精细化工与制造业的庞大体系中,工业醇类及溶剂扮演着不可或缺的…

2025年教我学英语 - 穿、衣

2025年教我学英语 - 穿、衣1、穿、戴 - wear [weə(r)] 穿、着 - put on [ˈpʊt ɒn] 穿、戴(状态)-dress [dres] 穿、套 - wear in [ˈweə(r) ɪn] 试穿 - try on [ˈtraɪ ɒn]2、衣服 - clothes [kləʊz] 外套…

探索Matlab水下图像处理与GUI界面构建之旅

数字图像处理matlab水下图像处理,gui 界面运用,有讲解报告 在数字图像处理的广袤领域中,水下图像处理因其独特的挑战而备受关注。Matlab作为一款强大的工具,为我们解决水下图像处理难题提供了丰富的资源和便捷的途径。同时&#…

快过年了 , 我就简简单单写一个总结吧 ! | 马年快乐 !

1. 项目正式上线了 书接上回 , 经过一个月的不懈努力 , 我和另一个哥们终于把这个项目 (帮学校做校园宿舍报修系统小程序) 拿下了. 但是这边宿管长这边又出了点状况: 因为这个项目是为学校做公益,没有问宿管长要一分钱. 但是服务器的钱肯定是要宿管长联系学校那边给报销一下…

FPGA FFT缩放因子配置全解析

目录 前言 1.快速傅里叶变换(FFT) 1.1 FFT的来源 1.2 FFT IP 缩放因子设置实例 缩放配置的底层含义:16haaaa 每一级的计算与“减肥”过程 输入准备:24 位原始数据 Stage 1:第一次蝶形运算 Stage 2&#x…

线程并行控制CompletableFuture

并行执行两个任务A和B。主线程等待时间最长为3s。所以A和B,单独运行的时长最长也是3s。 且如果A和B都没有超时,那么优先取A的值。否者谁不超时,就取谁。 线程池单个提交 比如下面的代码,先提交了两个异步任务,此时都…

2026 年 1 月酯类溶剂厂家推荐排行榜,正丙酯/乙酯/丁酯/醋酸丁酯/乙酸乙酯/丙二醇甲醚醋酸酯/工业碳酸二甲酯/精甲酯,高纯度环保溶剂实力供应商精选

2026 年 1 月酯类溶剂厂家推荐排行榜:高纯度环保溶剂实力供应商精选 在精细化工、涂料油墨、电子清洗、医药合成等众多现代工业领域,酯类溶剂扮演着不可或缺的角色。正丙酯、乙酸乙酯、醋酸丁酯、丙二醇甲醚醋酸酯(…

SB-Flink入门 202601125

SB-Flink入门 202601125

完整教程:创建混合工程:OpenHarmony Stage 模型 + Flutter 模块标准结构详解

完整教程:创建混合工程:OpenHarmony Stage 模型 + Flutter 模块标准结构详解2026-01-25 18:41 tlnshuju 阅读(0) 评论(0) 收藏 举报pre { white-space: pre !important; word-wrap: normal !important; overflow…

【EF Core】实体状态与变更追踪

好长时间没有水文章了,请容老周解释一下。因为最近老周进了两个厂,第一个厂子呆了八天左右,第二个厂子还在调试。管理很严格,带的电子设备都要登记、办手续。当初觉得雷神笔记本的屏幕大,在车间调试代码方便,所以…

漏洞与利用程序:厘清网络安全中的弱点与攻击

漏洞与利用程序:了解弱点与攻击之间的差距 一个漏水的屋顶是漏洞。那场暴雨就是利用程序。一个是条件,另一个是事件。 想一下你的手机。屏幕角落的那道小划痕?那就是一个漏洞。它是一个缺陷,一个薄弱点。它就静静地待在那里。 现在…

大面额沃尔玛购物卡哪里回收更安心?三招教你避开风险陷阱

消费习惯的改变,让不少人手中积攒了未使用的大面额沃尔玛购物卡,闲置浪费,回收变现成了迫切需求。但沃尔玛购物卡回收市场良莠不齐,怎样选到安全可靠的渠道?本文从风险对比与解决方案入手,帮你找到安心回收之选。…

【洛谷】二分查找专题 告别二分死循环!模板 + 细节 + 实战 - 教程

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

2025年教我学英语 - 美食

2025年教我学英语 - 美食一、基础饮食动作1、吃、进食 - eat [iːt] 喝、饮用 - drink [drɪŋk] 尝、品尝 - taste [teɪst] 嚼、咀嚼 - chew [tʃuː] 吞、吞咽 - swallow [ˈswɒləʊ]2、烹饪、煮 - cook [kʊk] 煎…

2026年1月高纯度溶剂厂家推荐榜单:乙烷/甲基环己烷/二氯甲烷/环己烷/正己烷/二甲苯/三甲苯/四甲苯/甲基苯,专业级精细化工原料供应商精选

2026年1月高纯度溶剂厂家推荐榜单:乙烷/甲基环己烷/二氯甲烷/环己烷/正己烷/二甲苯/三甲苯/四甲苯/甲基苯,专业级精细化工原料供应商精选 在精细化工、新材料合成、医药中间体制备及高端电子化学品等领域,高纯度有机…

导师严选2026 10款一键生成论文工具测评:本科生毕业论文必备清单

导师严选2026 10款一键生成论文工具测评:本科生毕业论文必备清单 2026年学术写作工具测评:为本科生毕业论文提供高效解决方案 随着高校对学术规范要求的不断提高,本科生在撰写毕业论文过程中面临诸多挑战,如文献检索效率低、格式…

腾讯混元大模型本地安装与Elasticsearch连接实战指南

本文详细介绍了腾讯混元大模型的本地部署过程,包括通过Ollama安装GGUF量化版本、配置参数、创建自定义模型并运行。随后展示了如何将混元模型连接到Elasticsearch,包括配置OpenAI兼容服务、创建Connector、上传文档并在Playground中进行测试。整个过程提…