PaddleOCR免费调用API额度提高到3000页每天啦

PaddleOCR,github 60K star,OCR效果非常好,目前是最好的OCR软件。

官网:PaddleOCR - 文档解析与智能文字识别 | 支持API调用与MCP服务 - 飞桨星河社区

除了在官网直接提交文档进行文字识别,还可以使用api调用官方的api服务,尤其是现在免费调用额度已经提高到每个模型每天3000页啦!

PaddleOCR三个模型的介绍

PaddleOCR-VL 介绍

PaddleOCR-VL是一款先进、高效的文档解析模型,专为文档中的元素识别设计。其核心组件为 PaddleOCR-VL-0.9B,这是一种紧凑而强大的视觉语言模型(VLM),它由 NaViT 风格的动态分辨率视觉编码器与 ERNIE-4.5-0.3B 语言模型组成,能够实现精准的元素识别。该模型支持 109 种语言,并在识别复杂元素(如文本、表格、公式和图表)方面表现出色,同时保持极低的资源消耗。通过在广泛使用的公开基准与内部基准上的全面评测,PaddleOCR-VL 在页级级文档解析与元素级识别均达到 SOTA 表现。它显著优于现有的基于Pipeline方案和文档解析多模态方案以及先进的通用多模态大模型,并具备更快的推理速度。这些优势使其非常适合在真实场景中落地部署。

PP-OCRv5 介绍

OCR(光学字符识别,Optical Character Recognition)是一项将图片中的文字内容转换为可编辑文本的技术,广泛应用于文档数字化、信息提取、数据处理等场景。OCR 能够识别印刷体、手写体等多种类型的文本,帮助用户高效获取图像中的关键信息。

PP-OCRv5是 PP-OCR 系列最新一代的文字识别解决方案,专为多场景、多文字类型的识别任务设计。相比前代版本,PP-OCRv5 在文字类型支持和应用场景适应性方面实现了全面升级。该方案不仅能够返回文本行的坐标信息,还可输出对应文本内容及其置信度,有效提升了文字检测与识别的准确性和实用性,

PP-StructureV3 产线介绍

PP-StructureV3是一套高效、全面的文档解析解决方案,能够从各类文档图像和PDF文件中提取结构化信息。通过结合光学字符识别(OCR)、图像处理和深度学习等前沿技术,PP-StructureV3能够识别并提取文档中的文本块、标题、段落、图片、表格、公式、图表等多种元素,将复杂的文档内容转化为机器可读的数据格式(如Markdown、JSON),极大提升了文档数据处理的效率和准确性。

调用说明

每个模型每天3000页额度,每次调用为100页额度,如果超过100页,只会返回前100页的识别结果。

超过额度系统会返回 429 (Too Many Requests) 错误码

返回的错误码说明

错误码说明解决建议
403Token 错误检查 Token 是否正确,或 URL 是否与 Token 匹配
429超出单日解析最大页数请使用其他模型或稍后再试
500传参错误请确保参数类型及 fileType 正确
503当前请求过多请稍后再试
504网关超时请稍后再试

python调用api

其中的url使用星河社区url,每个用户会给一个单独的url和token。比如我的PaddleOCR-VLAPI_URL = "https://e3vdv522q82encq6.aistudio-app.com/layout-parsing" ,PP-OCRv5则是:API_URL = "https://a35cc4ma17eea0x4.aistudio-app.com/ocr"

# Please make sure the requests library is installed # pip install requests import base64 import os import requests # API_URL 及 TOKEN 请访问 [PaddleOCR 官网](https://aistudio.baidu.com/paddleocr/task) 在 API 调用示例中获取。 API_URL = "<your url>" TOKEN = "<access token>" file_path = "<local file path>" with open(file_path, "rb") as file: file_bytes = file.read() file_data = base64.b64encode(file_bytes).decode("ascii") headers = { "Authorization": f"token {TOKEN}", "Content-Type": "application/json" } required_payload = { "file": file_data, "fileType": <file type>, # For PDF documents, set `fileType` to 0; for images, set `fileType` to 1 } optional_payload = { "useDocOrientationClassify": False, "useDocUnwarping": False, "useChartRecognition": False, } payload = {**required_payload, **optional_payload} response = requests.post(API_URL, json=payload, headers=headers) print(response.status_code) assert response.status_code == 200 result = response.json()["result"] output_dir = "output" os.makedirs(output_dir, exist_ok=True) for i, res in enumerate(result["layoutParsingResults"]): md_filename = os.path.join(output_dir, f"doc_{i}.md") with open(md_filename, "w", encoding="utf-8") as md_file: md_file.write(res["markdown"]["text"]) print(f"Markdown document saved at {md_filename}") for img_path, img in res["markdown"]["images"].items(): full_img_path = os.path.join(output_dir, img_path) os.makedirs(os.path.dirname(full_img_path), exist_ok=True) img_bytes = requests.get(img).content with open(full_img_path, "wb") as img_file: img_file.write(img_bytes) print(f"Image saved to: {full_img_path}") for img_name, img in res["outputImages"].items(): img_response = requests.get(img) if img_response.status_code == 200: # Save image to local filename = os.path.join(output_dir, f"{img_name}_{i}.jpg") with open(filename, "wb") as f: f.write(img_response.content) print(f"Image saved to: {filename}") else: print(f"Failed to download image, status code: {img_response.status_code}")

实践

api调用

url和token获取

代码里面的token和url都可以从官网获取:

登录账户后,点击官网首页API按钮,给出的代码就已经包含了用户的url和token。

api代码中还有两个地方需要填写,

其一为:file_path = "<local file path>" ,即待文字识别的图片或pdf文件。

其二为"fileType": <file type>, 如果是 PDF 文档,填0,如果是图片,填1

调用代码

代码参考如下:

# Please make sure the requests library is installed # pip install requests import base64 import os import requests API_URL = "https://e3vdv522q82encq6.aistudio-app.com/layout-parsing" TOKEN = "6cac**" file_path = "<local file path>" with open(file_path, "rb") as file: file_bytes = file.read() file_data = base64.b64encode(file_bytes).decode("ascii") headers = { "Authorization": f"token {TOKEN}", "Content-Type": "application/json" } required_payload = { "file": file_data, "fileType": <file type>, # For PDF documents, set `fileType` to 0; for images, set `fileType` to 1 } optional_payload = { "useDocOrientationClassify": False, "useDocUnwarping": False, "useChartRecognition": False, } payload = {**required_payload, **optional_payload} response = requests.post(API_URL, json=payload, headers=headers) print(response.status_code) assert response.status_code == 200 result = response.json()["result"] output_dir = "output" os.makedirs(output_dir, exist_ok=True) for i, res in enumerate(result["layoutParsingResults"]): md_filename = os.path.join(output_dir, f"doc_{i}.md") with open(md_filename, "w", encoding="utf-8") as md_file: md_file.write(res["markdown"]["text"]) print(f"Markdown document saved at {md_filename}") for img_path, img in res["markdown"]["images"].items(): full_img_path = os.path.join(output_dir, img_path) os.makedirs(os.path.dirname(full_img_path), exist_ok=True) img_bytes = requests.get(img).content with open(full_img_path, "wb") as img_file: img_file.write(img_bytes) print(f"Image saved to: {full_img_path}") for img_name, img in res["outputImages"].items(): img_response = requests.get(img) if img_response.status_code == 200: # Save image to local filename = os.path.join(output_dir, f"{img_name}_{i}.jpg") with open(filename, "wb") as f: f.write(img_response.content) print(f"Image saved to: {filename}") else: print(f"Failed to download image, status code: {img_response.status_code}")

输出信息

输出:

901
Markdown document saved at output\doc_0.md
19307
Image saved to: output\imgs/img_in_image_box_112_116_523_426.jpg
34806
Image saved to: output\imgs/img_in_image_box_790_467_1278_840.jpg
313812
Image saved to: output\layout_det_res_0.jpg

可以看到输出了1个md文件和3个图片,是因为图片里面有一部分被识别为图片了。

原图

执行效果

补:等边△ABC,边长为a <div style="text-align: center;"><img src="imgs/img_in_image_box_112_116_523_426.jpg" alt="Image" width="32%" /></div> $$ S_{\Delta A B C}=\frac{1}{2}a\cdot\frac{\sqrt{3}}{2}a=\frac{\sqrt{3}}{4}a^{2} $$ 专题:旋转构造、—奔驰模型 已知:△ABC为等边△ $ PA=6, PB=8 PC=10 $ ① 求 $ ∠APB=150° $ <div style="text-align: center;"><img src="imgs/img_in_image_box_790_467_1278_840.jpg" alt="Image" width="38%" /></div> $$ \textcircled{2}S_{\Delta}A B C=36+25\sqrt{3} $$ 解:将△ABC绕点A逆时针旋转 $ 60^{\circ} $ 得到△AP',连接由旋转得: $ P^{\prime}A = PA = 6 \cdot 1 $ , $ P^{\prime}B = PC = 10 $ $ \angle PAP^{\prime} = 60^{\circ} $ $ \therefore \triangle PAP^{\prime} $ 为等边三角形 $ PP^{\prime} = PA = 6 $ , $ \angle APP^{\prime} = 60^{\circ} $ $ PP^{\prime} = 6 $ ,PB = 8, $ P^{\prime}B = 10 $ $ \therefore PP^{\prime\prime2} + PB^{2} = P^{\prime}B^{2} $ $ \therefore \angle BPP^{\prime} = 90^{\circ} $

效果还是可以的,我这里看着输出有点乱是因为手里的md渲染软件表现拉胯。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1165471.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

线程池简单源码思路手撕实现和关于参数设置

线程池简单源码思路手撕实现 import java.util.ArrayList; import java.util.List; import java.util.concurrent.BlockingQueue; import java.util.concurrent.TimeUnit;public class myThreadPool {private int corePoolSize;private int maxPoolSize;private int timeout;pr…

VBScript系统级自动化:使用WScript对象外部操控Office与模拟键盘输入

目录 第七章&#xff1a;WScript控制Office 7-1 WScript常用属性&#xff08;实例&#xff1a;交互性更好的自动拆分工作簿&#xff09; 7-2 WScript对象的常用方法 7-3 用WshShell对象控制程序&#xff08;另一种控制Word、Excel的方法&#xff09; 7-4 用WshShell做机器…

NPP 草原:南非图文巴,1949-1990 年,R1

NPP Grassland: Towoomba, South Africa, 1949-1990, R1 简介 本数据集包含七个文本格式 (.txt) 的数据文件。这些文件提供了在南非图文巴人工建立的草原稀树草原研究地点进行的生物量估算、土壤碳 (C)、氮 (N) 和磷 (P) 测量数据。该研究地点是长期施肥试验的一部分&#xf…

NPP 草原:南非图文巴,1949-1990 年,R1

NPP Grassland: Towoomba, South Africa, 1949-1990, R1 简介 本数据集包含七个文本格式 (.txt) 的数据文件。这些文件提供了在南非图文巴人工建立的草原稀树草原研究地点进行的生物量估算、土壤碳 (C)、氮 (N) 和磷 (P) 测量数据。该研究地点是长期施肥试验的一部分&#xf…

GEE初学:谷歌地球引擎GEE入门指南(最新注册全流程)

引言 谷歌地球引擎(Google Earth Engine, GEE)是一个用于全球尺度地理空间数据分析的强大平台。该平台提供数十年卫星影像和环境数据集的免费访问权限,推动遥感分析的普及化,并支持海量数据的云端处理。 本教程将带您完成从账号创建到首个资源(asset)可视化的完整流程,…

AI应用架构师打造的AI驱动虚拟旅游,树立行业标杆

从0到1构建AI驱动的虚拟旅游应用:AI应用架构师的实战指南 摘要/引言 问题陈述 随着人们对旅游体验多样化需求的增长,传统的实体旅游受到时间、空间以及各种现实因素的限制。如何突破这些限制,为用户提供沉浸式、个性化且不受地理和时间约束的旅游体验,成为旅游行业亟待解…

现代高级语言 JIT 编译优化技术——逃逸分析(Escape Analysis)

现代高级语言 JIT 编译优化技术——逃逸分析&#xff08;Escape Analysis&#xff09;逃逸分析的定义 逃逸分析&#xff08;Escape Analysis&#xff09; 是一种在编译期间&#xff08;对于Java等语言是在即时编译阶段&#xff09;进行的静态分析技术。它的核心目的是分析一个对…

CRM系统如何通过AI与自动化重塑企业销售效能

在数字化转型浪潮中&#xff0c;客户关系管理&#xff08;CRM&#xff09;系统已从简单的客户信息记录工具&#xff0c;演进为企业运营的核心中枢。一款价值型CRM&#xff0c;其关键在于能否将前沿技术深度融入业务场景&#xff0c;实现降本增效。以建广数科自主开发的智盈客CR…

.Net 中的 ActivatorUtilitiesConstructor 特性

.Net 中的 ActivatorUtilitiesConstructor 特性 [ActivatorUtilitiesConstructor] 是 .NET 依赖注入中的一个特性&#xff0c;用于指导 Microsoft.Extensions.DependencyInjection&#xff08;MSDI&#xff09;在类型有多个构造函数时&#xff0c;选择哪个构造函数进行实例化。…

Open Code教程(四)| 高级配置与集成

Open Code教程&#xff08;四&#xff09;| 高级配置与集成OpenCode 高级配置与集成一、前言二、本地模型配置方式一&#xff1a;Ollama&#xff08;推荐&#xff09;方式二&#xff1a;LM Studio方式三&#xff1a;llama.cpp本地模型推荐三、AGENTS.md 配置创建方式推荐结构高…

django-flask基于python的大学生班级档案管理系统

目录django-flask基于python的大学生班级档案管理系统摘要关于博主开发技术路线相关技术介绍核心代码参考示例结论源码lw获取/同行可拿货,招校园代理 &#xff1a;文章底部获取博主联系方式&#xff01;django-flask基于python的大学生班级档案管理系统摘要 该系统基于Python语…

什么是SR-MPLS

文章目录为什么需要SR-MPLSSR-MPLS vs MPLSSR-MPLS的工作原理从SR-MPLS到SRv6SR-MPLS&#xff08;Segment Routing MPLS&#xff0c;基于MPLS转发平面的段路由&#xff09;是基于源路由理念而设计的在网络上转发数据包的一种协议。SR-MPLS的核心思想是将报文转发路径切割成不同…

救命神器10个一键生成论文工具,专科生毕业论文轻松搞定!

救命神器10个一键生成论文工具&#xff0c;专科生毕业论文轻松搞定&#xff01; AI 工具如何让论文写作变得轻松 对于许多专科生来说&#xff0c;毕业论文的撰写无疑是一道难以逾越的难关。从选题到开题&#xff0c;从查找到写作&#xff0c;每一个环节都可能让人感到力不从心。…

django-flask基于python的大学生创新计划项目管理web系统

目录Django-Flask 基于 Python 的大学生创新计划项目管理 Web 系统摘要关于博主开发技术路线相关技术介绍核心代码参考示例结论源码lw获取/同行可拿货,招校园代理 &#xff1a;文章底部获取博主联系方式&#xff01;Django-Flask 基于 Python 的大学生创新计划项目管理 Web 系统…

打开软件出现找不到d3dx9_36.dll如何修复? 附免费下载方法

在使用电脑系统时经常会出现丢失找不到某些文件的情况&#xff0c;由于很多常用软件都是采用 Microsoft Visual Studio 编写的&#xff0c;所以这类软件的运行需要依赖微软Visual C运行库&#xff0c;比如像 QQ、迅雷、Adobe 软件等等&#xff0c;如果没有安装VC运行库或者安装…

学霸同款2026 TOP8 AI论文软件:本科生毕业论文必备测评

学霸同款2026 TOP8 AI论文软件&#xff1a;本科生毕业论文必备测评 2026年学术写作工具测评&#xff1a;为何需要一份精准榜单&#xff1f; 随着AI技术在学术领域的深入应用&#xff0c;越来越多的本科生开始依赖AI工具辅助论文写作。然而&#xff0c;面对市场上琳琅满目的AI论…

django-flask基于python的大学生公益活动志愿服务系统的设计与实现

目录 摘要 关于博主开发技术路线相关技术介绍核心代码参考示例结论源码lw获取/同行可拿货,招校园代理 &#xff1a;文章底部获取博主联系方式&#xff01; 摘要 随着社会对公益事业的关注度不断提升&#xff0c;大学生参与志愿服务活动的需求日益增长。传统的志愿服务管理方式…

软件打开提示找不到d3dx9_30.dll文件 如何修复? 附免费下载方法

在使用电脑系统时经常会出现丢失找不到某些文件的情况&#xff0c;由于很多常用软件都是采用 Microsoft Visual Studio 编写的&#xff0c;所以这类软件的运行需要依赖微软Visual C运行库&#xff0c;比如像 QQ、迅雷、Adobe 软件等等&#xff0c;如果没有安装VC运行库或者安装…

django-flask基于python的大学生兼职网站的设计与实现

目录摘要关于博主开发技术路线相关技术介绍核心代码参考示例结论源码lw获取/同行可拿货,招校园代理 &#xff1a;文章底部获取博主联系方式&#xff01;摘要 随着互联网技术的快速发展&#xff0c;在线兼职平台已成为大学生获取社会实践机会的重要渠道。本文基于Python技术栈&…

计算机毕业设计springboot罕见病科普交流平台 SpringBoot 驱动的“罕见病智慧科普与互动服务系统” 基于 SpringBoot 的“罕见病知识共享与病友互助平台”

计算机毕业设计springboot罕见病科普交流平台fhi4o8jo &#xff08;配套有源码 程序 mysql数据库 论文&#xff09; 本套源码可以在文本联xi,先看具体系统功能演示视频领取&#xff0c;可分享源码参考。当罕见病遇上互联网&#xff0c;信息鸿沟便有望被填平。面对种类繁多、资料…