Hello,大家好,最近在部署 PaddleOCR-VL 的过程中,发现了一个容易被忽视的点:PaddleOCR-VL 实际上由两个模型组成——版面检测模型(Layout Detection)和 VLM(Vision-Language Model)。目前huggingface提供的 vLLM 推理服务只包含 VLM 部分,而前置的版面检测模型仍需要在 API 服务中独立运行。
在线体验地址
http://60.171.65.125:30296

这意味着:仅仅启动 vLLM 服务 无法完整使用 PaddleOCR-VL 的全部能力, 在实际部署时常会出现各种环境依赖、库版本冲突的问题——尤其是同时包含 Paddle、PaddleOCR、PaddleOCR-VL、vLLM、FastAPI、CUDA 环境等。
为了让更多同学快速体验到 PaddleOCR-VL 的完整功能,我已经将所有依赖环境全部打包构建好,包括:
-
Paddle 相关依赖
-
版面分析模型
-
VLM 模型(vLLM 推理服务)
-
API 服务端
-
所有 Python/CUDA 环境配置
📦 开箱即用,无需自己折腾环境。
欢迎大家直接拉取镜像 / 部署测试——体验完整的 PaddleOCR-VL 文档理解与视觉语言能力!
01
PaddleOCR-VL 模型介绍
PaddleOCR-VL是一款专为文档解析而设计的、资源高效的 SOTA 模型。其核心组件是 PaddleOCR-VL-0.9B,这是一款紧凑而强大的视觉语言模型 (VLM),它将 NaViT 风格的动态分辨率视觉编码器与 ERNIE-4.5-0.3B 语言模型相结合,从而实现精准的元素识别。这款创新模型高效支持 109 种语言,尤其擅长识别复杂元素(例如文本、表格、公式和图表),同时保持极低的资源消耗。通过在广泛使用的公共基准测试和内部基准测试上的全面评估,PaddleOCR-VL 在页面级文档解析和元素级识别方面均达到了 SOTA 的性能水平。它显著优于现有解决方案,与顶级 VLM 相比也极具竞争力,并拥有快速的推理速度。这些优势使其非常适合在实际应用场景中部署。

02
PaddleOCR-VL 技术亮点
紧凑而强大的视觉语言模型架构:我们提出了一种新型视觉语言模型,该模型专为资源高效推理而设计,在元素识别方面表现出色。通过将 NaViT 风格的动态高分辨率视觉编码器与轻量级的 ERNIE-4.5-0.3B 语言模型相集成,我们显著提升了模型的识别能力和解码效率。这种集成在保持高精度的同时降低了计算需求,使其非常适合高效实用的文档处理应用。
文档解析性能****达到最先进水平:PaddleOCR-VL 在页面级文档解析和元素级识别方面均实现了最先进的性能。它显著优于现有的基于流水线的解决方案,并在文档解析方面与领先的视觉语言模型 (VLM) 展开了激烈的竞争。此外,它还擅长识别复杂的文档元素,例如文本、表格、公式和图表,使其适用于各种具有挑战性的内容类型,包括手写文本和历史文档。这使其具有高度的通用性,适用于各种文档类型和应用场景。
多语言支持: PaddleOCR-VL 支持 109 种语言,涵盖全球主要语言,包括但不限于中文、英文、日文、拉丁文和韩文,以及采用不同文字和结构的语言,例如俄语(西里尔字母)、阿拉伯语、印地语(梵文)和泰语。如此广泛的语言覆盖范围显著提升了我们系统在多语言和全球化文档处理场景中的适用性。
03
PaddleOCR-VL 模型架构

04
PaddleOCR-VL 私有化部署
1、点击产品 -> 云容器实例

2、点击新建云容器

3、点击云容器实例-> 选择五区

4、选择GPU-> 选择应用镜像

5、根据需求是否需要定时关机,就直接点击开通

6、开通后点击云容器实例 -> 点击web连接的图标

7、启动服务(模型已经在镜像中)
sh /opt/start.sh

8、测试服务是否正常
python3 /opt/ocr.py

9、回到云容器实例 -> 点开放端口图标

10、输入8080,点击生成。

11、 浏览器输入生成的地址+/docs

现在注册九章智算云,可享受一对一技术支持
注册地址:https://www.alayanew.com/?id=onlinea