marker-pdf中PdfConverter总控调度器学习;PdfConverter的输入类型全是str问题;PDF文档的RAG(检索增强生成);Python:默认参数里,永远不要 new 对象;

news/2026/1/23 12:01:14/文章来源:https://www.cnblogs.com/asphxiasea/p/19409596

1.marker-pdf中PdfConverter总控调度器学习;
1️⃣ override_map
用来自定义/替换某一类 Block 的实现
2️⃣ use_llm
是否启用 LLM 增强
3️⃣ default_processors(核心流水线)
这是整个 PDF 结构重建的“流水线”,“不抽表格”去掉 TableProcessor。
4️⃣ default_llm_service
默认用 Gemini的LLM模型。

marker-pdf只认文件路径;
file_input: Union[str, io.BytesIO]
➡️ BytesIO 会被写成临时 PDF 文件 ➡️ 下游组件只认文件路径

语义过滤(processors)各项说明:

default_processors: Tuple[BaseProcessor, ...] = (OrderProcessor,               # ✅【必须】# 修正文档阅读顺序(多栏 / 流式)# 没它 = 文本顺序乱BlockRelabelProcessor,        # ⚠️# 修正 block 类型(正文 / 标题 / 引用等)# 对结构化输出有帮助,纯 RAG 可选LineMergeProcessor,           # ✅【必须】# 合并 PDF 强制换行# 不然一句话会被切成多行BlockquoteProcessor,          # ⚠️# 识别引用块(论文、规范)# RAG 中通常价值一般CodeProcessor,                # ⚠️# 识别代码块(API 文档 / 教程有用)# 普通文档可关DocumentTOCProcessor,         # ❌(RAG 通常不需要)# 识别目录(Table of Contents)# TOC 本身几乎不参与问答EquationProcessor,            # ⚠️# 识别数学公式(非 LLM)# 理工论文可能有用FootnoteProcessor,            # ❌# 脚注(引用编号、来源)# 噪声密度极高IgnoreTextProcessor,          # ✅【强烈推荐】# 忽略明确噪声文本(如 watermark)# 成本低、收益高LineNumbersProcessor,         # ❌# 行号(法律 / 标准文档)# 对 RAG 基本是毒药ListProcessor,                # ⚠️# 列表结构(条款、步骤)# 对 chunking 有帮助PageHeaderProcessor,          # ✅【强烈推荐】# 页眉页脚(书名、页码)# 必须去掉SectionHeaderProcessor,       # ✅【推荐】# 章节标题# 对 chunk 边界 & RAG 很重要TableProcessor,               # ❌(除非你明确需要表格)# 规则表格解析# 会产生大量碎文本LLMTableProcessor,            # ❌❌(RAG 默认关)# 用 LLM 解析表格# 成本高 + 噪声大LLMTableMergeProcessor,       # ❌# 合并 LLM 表格# 对问答价值低LLMFormProcessor,             # ❌# 表单识别(合同 / 表格)# 非问答核心内容TextProcessor,                # ✅【必须】# 最终正文抽取# 没它就没文本LLMComplexRegionProcessor,    # ❌# 复杂版面修复# 成本高,不稳定LLMImageDescriptionProcessor, # ❌# 图片转文字# RAG 中噪声极大LLMEquationProcessor,         # ⚠️# LLM 公式理解# 理工文献可考虑LLMHandwritingProcessor,      # ❌# 手写识别# RAG 极少用LLMMathBlockProcessor,        # ⚠️# 数学块整体识别# 非数学场景建议关LLMSectionHeaderProcessor,    # ⚠️# 用 LLM 修复标题# 可有可无LLMPageCorrectionProcessor,   # ❌# LLM 修正文档结构# 性价比低ReferenceProcessor,           # ❌【强烈建议关】# 参考文献# 对问答几乎无价值BlankPageProcessor,           # ⚠️# 空页处理# 有无影响不大DebugProcessor,               # ❌# 调试输出# 生产环境必关
)

2.PdfConverter的输入类型全是str问题;
目前,需要marker-pdf的过滤器;
marker 的核心设计目标是:
“所有组件都能通过 CLI + 配置文件 + JSON 反射加载”
➡️所以PdfConverter所有输入都是字符串str的形式,非常不利于开发
➡️ConfigParser是CLI → config 的官方映射表,能从这看到大多数的config类型

case "page_range":config["page_range"] = parse_range_str(v)      # list[int]case "disable_multiprocessing":config["pdftext_workers"] = 1                  # intcase "disable_image_extraction":config["extract_images"] = False               # bool

3.PDF文档的RAG(检索增强生成)
大模型(LLM)本身有 3 个硬伤:
❌ 不知道你的私有数据
❌ 上下文长度有限
❌ 容易胡编(幻觉)
① 文档加载(你现在做的就是这一步)
② 文本切块(Chunking)
③ 向量化(Embedding)
④ 向量检索(Retrieval)
⑤ 生成回答(Generation)
与传统直接将PDF喂给LLM模型的区别

方式 问题
直接粘 PDF ❌ 超长 / 乱 / 贵
微调模型 ❌ 成本高 / 更新慢
RAG ✅ 灵活 / 实时 / 可控

4.Python:默认参数里,永远不要 new 对象

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1204806.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

郑州研究生留学机构口碑排名精选,录取案例多助你成功留学

郑州研究生留学机构口碑排名精选,录取案例多助你成功留学一、郑州研究生留学机构如何选择?资深规划师为您解析今天是2026年1月9日,作为一位在国际教育规划领域从业超过十年的顾问,我时常接触到郑州高校学子关于留学…

工厂预制化管道:2026年国内防腐管道领域的口碑之选,撬装产品设备/法兰管件/三通管件/异径管件,工厂预制化管道公司推荐

随着国内能源、化工、电力等基础工业的持续升级与环保要求的日益严苛,管道系统的防腐性能、长期稳定性和安装效率已成为项目成败的关键。传统现场焊接与防腐处理模式,受制于环境、工艺和人员技术水平,在质量均一性、…

2026年展厅数字人解决方案,3D、2D数字人定制与多终端AI交互全解析

2026年,AI数字人在展厅、政务、文旅等场景的应用进入深化阶段,高精度3D数字人定制与自然交互能力成为行业核心需求。作为深耕数字人领域十余年的企业,世优科技凭借全栈自研技术与丰富落地经验,为各行业提供适配大屏…

Tomcat+cpolar 让 Java Web 应用随时随地可访问

Tomcat 作为轻量级 Java 应用服务器,核心功能是稳定托管 Java Servlet 和 JSP 类型的 Web 应用,适配各类中小型 Java 项目的运行需求,适用人群涵盖 Java 开发人员、中小企业运维人员以及编程学习者。它的优点十分突出,部署流程简单…

paddleOCR识别模型训练流程;dify返回格式踩坑;

1.paddleOCR识别模型训练流程 参考文章如下:制作rec数据集 rec是用来训练文字识别的数据集。 制作rec数据集时,需要将数据集合分为训练集和测试集: 我使用的是官方的训练集和测试集分法gen_ocr_train_val_test.py 这…

分析哈尔滨路虎专修哪家便宜,卓越名车性价比超高

本榜单依托东北三省豪华车维修市场全维度调研与真实车主口碑反馈,深度筛选出五家专业路虎捷豹维修标杆门店,为车主解决正规路虎专修找哪家、路虎专修哪家便宜、路虎专修帮我推荐几家的核心痛点,助力精准匹配适配的维…

java 读取pdf文件内容_java读取pdf内容,零基础入门到精通,收藏这篇就够了

方式一 1、引入maven <dependency><groupId>org.apache.pdfbox</groupId><artifactId>pdfbox</artifactId><version>2.0.25</version> </dependency>2、代码工具类 //import com.itextpdf.text.pdf.PdfReader; //import co…

盘点东北资质齐全的路虎改装公司,排名靠前的有哪些?

随着路虎车型在东北市场的保有量逐年攀升,车主对个性化改装的需求也从基础外观升级转向性能优化、老车翻新等深度场景,但多数车主面临找不到专业门店怕被坑担心配件假货等痛点。本文围绕实力强的路虎改装公司资质齐全…

2026柔性夹爪品牌选型指南:十大品牌全景评测,精准适配智造需求

随着2026年智能制造行业的持续深化,柔性夹爪作为机器人末端执行器的核心组件,凭借其对柔性、异形、易碎工件的精准抓取能力,成为工业自动化升级的关键装备。在众多品牌中甄选适配产品,需结合技术实力、应用场景、服…

2026岩棉/玻镁/泡沫夹芯板厂家推荐,专业生产,品质可靠

2026岩棉/玻镁/泡沫夹芯板厂家推荐:专业生产与品质可靠性的深度解析 在建筑工业与净化工程领域,夹芯板作为核心的围护与隔断材料,其性能直接关系到建筑的安全性、节能性及使用功能。随着2026年的临近,市场对岩棉、…

防锈膜品牌制造商哪家性价比高,天津金盛昱塑料制品有答案

2026年工业包装防护需求持续升级,防锈膜作为金属制品仓储、运输环节的核心防护材料,其品质稳定性、定制适配性直接决定企业供应链成本与产品交付质量。无论是汽车零部件的长效防锈、钢材紧固件的精密防护,还是跨境运…

2026年1月四川绵阳旧楼加装电梯、老房加装电梯、加装电梯公司综合推荐

开篇引言:旧改浪潮下的选型之困 在《关于全面推进城镇老旧小区改造工作的指导意见》的政策推动下,全国范围内的老旧小区改造工程如火如荼。据住房和城乡建设部数据显示,截至2025年底,全国已累计开工改造城镇老旧小…

2026年柔性夹爪品牌综合实力榜:十大品牌全景透视与选型指南

在工业自动化向柔性制造加速转型的2026年,柔性夹爪作为机器人末端执行器的核心部件,正凭借其仿生学设计带来的自适应抓取能力,成为解决异形、易碎、精密工件搬运难题的关键装备。面对市场上众多品牌,如何科学选型成…

详细介绍:5. MariaDB 数据库管理

详细介绍:5. MariaDB 数据库管理pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco&q…

git官方库PaddleOCR提供的几种模型库;github拉下来的源码和pip包(CLI)使用;supervisorctl部署踩坑;PaddleOCR文本检测模块训练实战(踩坑)

1.git官方库PaddleOCR提供的几种模型库; PaddleOCR-VL - 通过 0.9B VLM 进行多语言文档解析。 该模型是专为文档解析量身定制的 SOTA 和资源高效模型,支持 109 种语言,擅长识别复杂元素(例如文本、表格、公式和图表…

2026东四省最新艺考集训学校 TOP5 评测!辽宁、沈阳等地优质培训机构权威榜单发布,助力艺考生升学梦想

随着艺术升学竞争日趋激烈,专业的艺考集训成为艺考生实现名校梦想的关键助力。本榜单基于教学成果、师资力量、课程体系、硬件设施四大维度,结合东四省艺考生及家长口碑反馈,权威解析2026年五大艺考集训品牌综合实力…

uni-app 不同页面EventChannel通信

详情页 假设在列表页中你有某个方法来监控连接状态(如通过 WebSocket 或定时器),并且一旦连接断开,就通知详情页。 // 列表页代码 async monitorConnection(item) {// 假设你有一个函数来监控设备连接状态变化let …

超越期待:为什么说上海博禹泵业是国产水泵的“性价比王牌”?

我所在单位主要负责市政排水和应急防汛工作。2023年汛期前,我们采购了上海博禹泵业有限公司的真空辅助自吸泵和便携式防汛潜水泵。经过一年多的使用,我对博禹水泵的性能有了全面的了解。 初次采购时,我们比较了多家…

【ACM出版】第七届计算机信息和大数据应用国际学术会议(CIBDA 2026)

【ACM出版】 第七届计算机信息和大数据应用国际学术会议(CIBDA 2026) 2026 7th International Conference on Computer Information and Big Data Applications 在这里看会议官网详情 大会时间:2026年3月20-22日 大…

文档识别架构思路整理;

1.文档识别架构思路整理 “直接把整个文件给 LLM”本来就不对 👉 Paddle 负责“看清楚”,LLM 负责“想明白” 1️⃣ LLM 的天然限制 上下文窗口有限(即便 128k 也不够 PDF / 扫描件) 成本高 注意力会被无关内容稀…