modelscope 上PaddleOCR-VL 部署(2026年1月17日亲测可用)

PaddleOCR-VL 部署

创建时间: 2026-01-16
环境: ModelScope PAI-DSW 免费实例


环境配置

组件版本
系统Ubuntu 22.04
CUDA12.4.0
Python3.11.11
PyTorch2.9.1
cuDNN1.33.0
CPU8核
内存32GB
显存24GB
剩余额度13小时30分钟

虚拟环境

wgethttp://qiniu.dywlkj.com/uv_for_linux_x86/install.sh -O -|sh

uv 安装信息

  • uv 版本:0.8.22
  • 已安装命令:uvuvx

会话管理命令(推荐使用 screen 或 tmux 后台运行)

功能screen 命令tmux 命令
新建命名会话screen -S 名字tmux new -s 名字
列出所有会话screen -lstmux ls
重新连接会话screen -r 名字tmux attach -t 名字
detach(后台运行)Ctrl+A → DCtrl+B → D
退出并关闭会话exit或 Ctrl+Dexit或 Ctrl+D

更换国内镜像源(加速下载)

方法1:临时环境变量(单次生效)
# 使用阿里云镜像源exportUV_INDEX_URL=https://mirrors.aliyun.com/pypi/simple/ uv pipinstall[包名]
常用镜像源列表
来源镜像源
阿里云https://mirrors.aliyun.com/pypi/simple/
清华大学https://pypi.tuna.tsinghua.edu.cn/simple/
豆瓣https://pypi.doubanio.com/simple/
华为云https://repo.huaweicloud.com/repository/pypi/simple/
示例
wgethttp://qiniu.dywlkj.com/uv_for_linux_x86/install.sh -O -|shexportUV_INDEX_URL=https://pypi.tuna.tsinghua.edu.cn/simple/

or

cat<<'EOF'>uv.toml[[index]] name = "aliyun" url = "https://mirrors.aliyun.com/pypi/simple/" default = true EOFuv pipinstallmodelscope

uv 常用命令

  • uv—— 快速创建虚拟环境、安装包
  • uvx—— 直接运行 Python 工具(如uvx black

虚拟环境操作

# 路径/mnt/workspace/paddleocr-vl/.venv# 创建命令mkdir-p /mnt/workspace/paddleocr-vlcd/mnt/workspace/paddleocr-vl uv venv --python3.11# 激活命令source.venv/bin/activate

PaddleOCR vs PaddleOCR-VL

核心区别

特性PaddleOCRPaddleOCR-VL
定位传统 OCR 工具库多模态文档理解框架
能力文本检测+识别视觉+语言多模态理解
输出纯文本结构化数据+问答+理解
架构CNN + CRNNMultimodal Transformer (ViT + LLM)
模型PP-OCR, PP-StructureNaViT + ERNIE-4.5-0.3B
资源需求轻量级,CPU可用需要GPU,较大显存
速度相对较慢
理解能力文本提取文档语义理解

联系

PaddleOCR (基础层) ↓ └─> 文本检测/识别能力 ↓ PaddleOCR-VL (增强层) ↓ └─> 基于PaddleOCR + 多模态大模型 └─> 文档理解、问答、推理

PaddleOCR-VL 核心信息

模型规格

组件规格
模型名称PaddleOCR-VL-0.9B
视觉编码器NaViT 风格动态分辨率
语言模型ERNIE-4.5-0.3B
多语言支持109 种语言
识别能力文本、表格、公式、图表

GitHub & 文档

  • GitHub: https://github.com/PaddlePaddle/PaddleOCR-VL
  • ModelScope: https://modelscope.cn/models/PaddlePaddle/PaddleOCR-VL

安装方案

推荐方案

# 激活环境source.venv/bin/activate# 安装 PaddlePaddle-GPU 3.2.0UV_HTTP_TIMEOUT=3600uv pipinstallpaddlepaddle-gpu==3.2.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu126/# 安装 PaddleOCR-VLUV_HTTP_TIMEOUT=3600uv pipinstall-U"paddleocr[doc-parser]"

备选方案(cu126 失败时)

# 使用 cu124 版本UV_HTTP_TIMEOUT=3600uv pipinstallpaddlepaddle-gpu==3.2.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu124/UV_HTTP_TIMEOUT=3600uv pipinstall-U"paddleocr[doc-parser]"

验证安装

# 检查 PaddlePaddle 版本和 CUDA 支持python -c"import paddle; print(paddle.__version__); print(paddle.device.cuda.device_count())"# 检查 PaddleOCR-VLpython -c"from paddleocr import PaddleOCRVL; print('PaddleOCR-VL installed successfully')"

使用 ModelScope 下载 PaddleOCR-VL 模型

frommodelscopeimportsnapshot_download MODEL_NAME="PaddlePaddle/PaddleOCR-VL"MODEL_ID="PaddleOCR-VL"SAVE_DIR=f"/mnt/workspace/models/{MODEL_ID}"if__name__=="__main__":print(f"正在从 ModelScope 下载模型:{MODEL_NAME}")print(f"保存目录:{SAVE_DIR}")print("-"*50)model_dir=snapshot_download(MODEL_NAME,cache_dir=SAVE_DIR,revision="master",)print("-"*50)print(f"模型下载完成!")print(f"模型路径:{model_dir}")

使用 ModelScope 下载 PP-DocLayoutV2 模型

frommodelscopeimportsnapshot_download MODEL_NAME="PaddlePaddle/PP-DocLayoutV2"MODEL_ID="PP-DocLayoutV2"SAVE_DIR=f"/mnt/workspace/models/{MODEL_ID}"if__name__=="__main__":print(f"正在从 ModelScope 下载模型:{MODEL_NAME}")print(f"保存目录:{SAVE_DIR}")print("-"*50)model_dir=snapshot_download(MODEL_NAME,cache_dir=SAVE_DIR,revision="master",)print("-"*50)print(f"模型下载完成!")print(f"模型路径:{model_dir}")

Key Installation Commands

# Install PaddlePaddle-GPU with CUDA 12.6 supportUV_HTTP_TIMEOUT=3600uv pipinstallpaddlepaddle-gpu==3.2.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu126/# Install PaddleOCR-VL with document parser capabilitiesUV_HTTP_TIMEOUT=3600uv pipinstall-U"paddleocr[doc-parser]"# Install vLLM server dependencies (for production deployment)paddleocr install_genai_server_deps vllm# Install flash-attention for GPU acceleration (from pre-built wheel)# Check CUDA version first: nvidia-smi | grep "CUDA Version"pipinstallhttps://github.com/Dao-AILab/flash-attention/releases/download/v2.7.3/flash_attn-2.7.3+cu12torch2.8cxx11abiFALSE-cp311-cp311-linux_x86_64.whl# Or compile from source (if wheel doesn't match your environment)pip uninstall -y flash_attn pipinstallpackaging ninja pipinstallflash-attn --no-build-isolation

Production Deployment Workflow

Complete Setup Flow (Verified Working)

Step 1: Environment Activation

source.venv/bin/activate

Step 2: Install Dependencies

# Core packagespaddleocr install_genai_server_deps vllm# Flash-attention (GPU acceleration)# Download wheel locally first, then installwgethttp://qiniu.dywlkj.com/deepseek-ocr-vllm/flash_attn-2.7.3%2Bcu12torch2.8cxx11abiFALSE-cp311-cp311-linux_x86_64.whl pipinstall./flash_attn-2.7.3+cu12torch2.8cxx11abiFALSE-cp311-cp311-linux_x86_64.whl# Verify installationpython -c"import flash_attn; print(flash_attn.__version__)"# Expected output: 2.7.3

Step 3: Start vLLM Server

paddlex_genai_server\--model_name PaddleOCR-VL-0.9B\--model_dir /mnt/workspace/models/PaddleOCR-VL/PaddlePaddle/PaddleOCR-VL\--backend vllm\--host0.0.0.0\--port8118

Step 4: Verify Server Status

# Check server healthcurlhttp://127.0.0.1:8118/health# List available modelscurlhttp://127.0.0.1:8118/v1/models# Expected response:# {"data":[{"id":"PaddleOCR-VL-0.9B","object":"model",...}],"object":"list"}

PaddleX Layout Parsing API

paddlex --serve\--pipeline ./config/PaddleOCR-VL.yaml\--host0.0.0.0\--port10800\--paddle_model_dir /mnt/workspace/paddleocr-vl

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1175091.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

QtOpenGL多线程渲染方案深度解析

QtOpenGL多线程渲染方案深度解析1. 引言&#xff1a;为什么需要多线程渲染&#xff1f;2. QtOpenGL多线程架构设计2.1 基本线程模型2.2 关键组件3. 实现细节与性能优化3.1 线程间同步机制3.2 性能关键点4. 实战案例&#xff1a;3D场景编辑器4.1 架构设计4.2 性能对比5. 常见问题…

15.ACS725 电流检测

分享一颗电流传感器IC芯片&#xff0c;ACS725芯片&#xff0c;这颗芯片是汽车级的&#xff0c;工作温度在-40到150度&#xff0c;很多电流采集的场合可以使用。ACS725提供了一种小封装&#xff0c;低成本的表贴封装&#xff0c;而且目前在国内也有可以替换的一些IC出现&#xf…

千万会员,亿级交易:当CRM系统不堪重负,头部药企如何通过数据库升级实现“实时精准营销”?

千万会员,亿级交易:当CRM系统不堪重负,头部药企如何通过数据库升级实现“实时精准营销”?作者:张红霞,青岛雨诺网络信息股份有限公司新零售产品部总监 综述 当前,医药零售企业已不再满足于“卖药”,而是致力于…

YOLO26 改进 - 注意力机制 | IIA信息整合注意力(Information Integration Attention ):精准保留空间位置信息,平衡精度与计算成本 | TGRS2025

前言 本文提出信息整合注意力&#xff08;IIA&#xff09;机制&#xff0c;并将其集成到YOLO26中用于遥感图像语义分割。传统CNN难捕捉全局信息&#xff0c;Transformer计算复杂&#xff0c;现有基于Mamba的方法未充分考虑局部信息。IIA利用图像特征空间位置不变性&#xff0c…

Java计算机毕设之基于springboot的城市化自修室预约签到管理系统的设计与实现(完整前后端代码+说明文档+LW,调试定制等)

博主介绍&#xff1a;✌️码农一枚 &#xff0c;专注于大学生项目实战开发、讲解和毕业&#x1f6a2;文撰写修改等。全栈领域优质创作者&#xff0c;博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围&#xff1a;&am…

0.传感器及常用模块总结

一、基础传感器&#xff08;单一物理量检测&#xff09;磁敏传感器核心型号&#xff1a;干簧管、霍尔传感器&#xff08;49E、A3144&#xff09;、霍尔磁力模块应用&#xff1a;接近检测、转速计数、磁性开关光相关传感器光敏传感器&#xff1a;光敏电阻&#xff08;LDR&#x…

聚焦AI原生应用领域的自然语言理解前沿

聚焦AI原生应用领域的自然语言理解前沿关键词&#xff1a;AI原生应用、自然语言理解、前沿技术、语言模型、应用场景摘要&#xff1a;本文聚焦于AI原生应用领域中自然语言理解的前沿内容。首先介绍了自然语言理解在AI发展中的重要背景&#xff0c;接着详细解释了相关核心概念&a…

计算机Java毕设实战-基于springboot的城市图书馆自修室管理系统【完整源码+LW+部署说明+演示视频,全bao一条龙等】

博主介绍&#xff1a;✌️码农一枚 &#xff0c;专注于大学生项目实战开发、讲解和毕业&#x1f6a2;文撰写修改等。全栈领域优质创作者&#xff0c;博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围&#xff1a;&am…

导师推荐10个AI论文平台,本科生搞定毕业论文!

导师推荐10个AI论文平台&#xff0c;本科生搞定毕业论文&#xff01; AI 工具助力论文写作&#xff0c;高效又省心 对于大多数本科生而言&#xff0c;毕业论文是大学阶段最具挑战性的任务之一。从选题到开题、撰写再到查重降重&#xff0c;每一个环节都可能让人感到压力山大。而…

基于STM32的智能宠物喂食系统设计与实现

基于STM32的智能宠物喂食系统设计与实现摘要本论文设计并实现了一种基于STM32F103C8T6单片机的智能宠物喂食系统。该系统集成了多参数环境监测、精准食物称重、智能投喂控制与远程监控等功能&#xff0c;可实时监测宠物环境温湿度&#xff0c;精确测量食物重量&#xff0c;根据…

解码WIFI模块与IoT云平台

WIFI模块原理与应用 引言 随着物联网技术快速发展,越来越多的智能设备需要通过无线方式接入互联网。在众多无线通信方案中,WIFI模组(ESP8266/ESP32系列)因其成熟的生态和广泛的应用,成为实现远程控制、数据采集等…

TDengine C# 语言连接器入门指南

本指南汇总官网文档中 C# 初学者应该掌握的基础知识&#xff0c;覆盖安装、连接方式、基本读写、异常处理与数据类型映射。示例代码基于 .NET 6.0。 1. 准备环境 确保 TDengine TSDB 服务端可访问。原生连接使用 serverPort&#xff08;默认 6030&#xff09;。WebSocket 连接…

YUV缓冲区

“YUV 缓冲区”是指在图像或视频处理中用于存储 YUV 格式像素数据的一段内存区域。YUV 是一种广泛用于视频采集、编码、传输和显示的颜色编码系统,与常见的 RGB 不同,它将亮度(Luma, Y)和色度(Chroma, U/V)分离开…

Java毕设项目推荐-基于Springboot和Vue的城市化自修室管理系统springboot的城市化自修室管理系统【附源码+文档,调试定制服务】

博主介绍&#xff1a;✌️码农一枚 &#xff0c;专注于大学生项目实战开发、讲解和毕业&#x1f6a2;文撰写修改等。全栈领域优质创作者&#xff0c;博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围&#xff1a;&am…

java常用容器源码手撕实现

java常用容器源码手撕&#xff08;持续更新&#xff09; ArrayList&#xff1a; 动态数组&#xff0c;扩容&#xff0c;迭代器 package tech.insight;import java.util.Iterator; import java.util.NoSuchElementException; import java.util.Objects;/*** author gongxuanzhan…

大数据学习(1)

我完成了大数据学习的一部分,包括提示工程之类的,对于豆包和deepseek网页版为啥回复答案如此相似有了答案,并跟着教程完成了一个简陋的智能体,(虽说我觉得它现在只是一个智障体),它能够进行读写文件,还有从网上…

【小记】解决校园网中不同单播互通子网间 LocalSend 的发现问题

这回来折腾一下怎么在多播隔离、单播允许的局域网(比如校园网)子网之间实现 LocalSend 客户端的互相发现。各位好久不见~下半年又是忙论文又是忙项目的,实在是没什么时间更新笔记了。趁着今天有点空闲,咱来写写最近…

Java毕设项目推荐-基于springboot的学车超能驾校线上学习管理系统学车预约、考试信息、考试预约、考试成绩、课时充值的设计与实现【附源码+文档,调试定制服务】

博主介绍&#xff1a;✌️码农一枚 &#xff0c;专注于大学生项目实战开发、讲解和毕业&#x1f6a2;文撰写修改等。全栈领域优质创作者&#xff0c;博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围&#xff1a;&am…

【计算机毕业设计案例】基于springboot的学车驾校线上学习理论学习考试管理系统的设计与实现(程序+文档+讲解+定制)

博主介绍&#xff1a;✌️码农一枚 &#xff0c;专注于大学生项目实战开发、讲解和毕业&#x1f6a2;文撰写修改等。全栈领域优质创作者&#xff0c;博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围&#xff1a;&am…

Springboot基于双减政策的家校互动管理系统8e613(程序+源码+数据库+调试部署+开发环境)带论文文档1万字以上,文末可获取,系统界面在最后面。

系统程序文件列表项目功能&#xff1a;家长,教师,学生信息,班级,班务活动,班级公告,校园资讯,计划安排,延时服务,参与服务,学生成绩,家长反馈,家长警告,教师警告,资讯类型,学校基础信息开题报告内容SpringBoot基于“双减”政策的家校互动管理系统开题报告一、研究背景与意义研究…