HY-MT1.5-7B+OCR联动方案:云端一站式文档翻译

HY-MT1.5-7B+OCR联动方案:云端一站式文档翻译

你是否遇到过这样的问题:手头有一份扫描版的外文PDF,想快速翻译成中文,但流程繁琐——先用OCR工具提取文字,再复制粘贴到翻译软件,结果格式错乱、术语不准、效率极低?更麻烦的是,如果文档量大,来回切换工具、传输中间文件,不仅耗时还容易出错。

现在,有了HY-MT1.5-7B + OCR 联动方案,这一切都可以在一个GPU实例中全自动完成。从扫描PDF的图像输入,到OCR识别,再到高质量机器翻译输出,整个流程无缝衔接,无需手动干预,也避免了中间文本文件的生成与传输开销,真正实现“上传即翻译”。

这个方案特别适合需要处理大量外文技术文档、学术论文、合同资料的用户,比如科研人员、外贸从业者、法律翻译、企业情报分析等。而CSDN星图平台提供的预置镜像,已经集成了OCR引擎(如PaddleOCR或EasyOCR)和腾讯混元开源的Tencent-HY-MT1.5-7B翻译模型,支持33种国际语言互译及5种民汉/方言翻译,部署后即可对外提供API服务,非常适合构建私有化、高安全性的文档翻译系统。

本文将带你一步步部署这套“OCR+翻译”一体化环境,讲解核心工作流程,并通过实际案例展示如何一键完成整篇PDF的精准翻译。无论你是AI新手还是有一定基础的技术爱好者,都能轻松上手。学完之后,你不仅能掌握这套高效工具链,还能理解其背后的关键参数与优化技巧,实测下来稳定高效,现在就可以试试!


1. 方案解析:为什么选择HY-MT1.5-7B+OCR联动?

1.1 传统文档翻译流程的痛点

我们先来看看传统的扫描PDF翻译是怎么做的:

  1. 使用Adobe Acrobat、WPS或在线OCR工具对PDF进行文字识别;
  2. 导出为TXT或DOCX格式;
  3. 将文本复制到Google Translate、DeepL或百度翻译等平台;
  4. 手动校对格式、段落、专业术语;
  5. 最后整理成可读文档。

这一套流程看似简单,实则存在多个瓶颈:

  • 效率低下:每一步都需要人工操作,尤其是长文档,等待OCR识别和翻译响应就很耗时。
  • 信息丢失:OCR识别错误(如数字、符号、排版混乱)会直接影响翻译质量。
  • 隐私风险:将敏感文档上传至第三方翻译平台,存在数据泄露隐患。
  • 格式错乱:翻译后的文本往往无法保留原文结构,表格、标题层级全乱。
  • 术语不一致:通用翻译引擎对专业词汇(如医学、法律、工程术语)处理不佳。

这些问题累积起来,导致整体翻译体验差、成本高、难以规模化。

⚠️ 注意:很多用户尝试用本地工具解决,但发现单独部署OCR和翻译模型需要分别配置环境、管理内存、协调接口,技术门槛高,调试困难。

1.2 HY-MT1.5-7B的优势:小模型,大能力

腾讯混元推出的Tencent-HY-MT1.5-7B是一款专为翻译任务优化的大语言模型,相比通用大模型(如LLaMA、Qwen),它在翻译场景下表现更精准、响应更快。以下是它的几个关键优势:

  • 多语种全覆盖:支持33种国际语言互译,包括英语、日语、德语、法语、西班牙语、俄语、阿拉伯语等主流语言,还覆盖捷克语、马拉地语、爱沙尼亚语、冰岛语等小语种。
  • 方言与民族语言支持:除了标准中文,还支持粤语、繁体中文、藏语、维吾尔语、蒙古语等5种民汉/方言翻译,满足多样化需求。
  • 翻译质量媲美商用API:在Flores-200、WMT25等多个权威测试集上,其翻译BLEU分数超过部分主流商用翻译API,尤其在复杂句式和专业术语处理上表现突出。
  • 7B参数量适中:相比百亿级大模型,7B参数更适合在单张GPU上运行(如A10、3090、4090),推理速度快,显存占用可控。
  • 开源可私有化部署:模型完全开源,可部署在本地或云端GPU服务器,保障数据安全,避免依赖外部服务。

更重要的是,HY-MT1.5系列有两个版本:1.8B轻量版7B增强版。对于文档翻译这类对精度要求较高的任务,推荐使用7B版本,虽然资源消耗略高,但翻译流畅度和语义准确性显著提升。

1.3 OCR+翻译一体化的价值

将OCR与翻译模型集成在同一GPU环境中,带来的不仅仅是“省事”,更是架构上的根本优化:

传统方式一体化方案
多工具切换,流程割裂单一服务入口,端到端处理
中间生成TXT/JSON文件内存直传,无磁盘I/O开销
网络请求频繁(OCR→翻译)全部在本地完成,延迟低
安全性差(数据外泄)数据不出内网,合规性强
难以批量处理支持API调用,可自动化批处理

举个例子:一份100页的英文技术手册,传统方式可能需要30分钟以上(含等待时间),而一体化方案在高性能GPU上可在5分钟内完成OCR识别+全文翻译,且输出结构清晰、术语统一。

这种“云端一站式文档翻译”模式,正是当前企业级AI应用的趋势——把多个AI能力组合成一个高效流水线,极大提升生产力。


2. 环境部署:一键启动OCR+翻译服务

2.1 准备工作:选择合适的GPU资源

要运行HY-MT1.5-7B模型,建议使用至少16GB显存的GPU。以下是常见GPU型号的适配情况:

GPU型号显存是否推荐说明
NVIDIA RTX 309024GB✅ 推荐消费级首选,性价比高
NVIDIA A1024GB✅ 推荐云服务器常用,性能稳定
NVIDIA A100 40GB40GB✅ 强烈推荐适合高并发、大批量处理
NVIDIA RTX 409024GB✅ 推荐性能接近A10
NVIDIA T416GB⚠️ 可用但受限仅能运行量化版(如INT8)
NVIDIA V10016/32GB✅ 可用老旧但可靠

如果你是在CSDN星图平台操作,可以直接选择预置的“HY-MT1.5-7B + OCR 联动镜像”,该镜像已包含以下组件:

  • Python 3.10
  • PyTorch 2.1 + CUDA 11.8
  • PaddleOCR(或 EasyOCR)
  • Transformers 库
  • Tencent-HY-MT1.5-7B 模型权重(自动下载)
  • FastAPI 后端框架
  • PDF解析库(PyMuPDF / pdfplumber)

这意味着你无需手动安装任何依赖,节省至少1小时配置时间。

2.2 一键部署镜像并启动服务

登录CSDN星图平台后,按照以下步骤操作:

  1. 进入“镜像广场”,搜索HY-MT1.5-7B OCR
  2. 选择带有“文档翻译一体化”标签的镜像;
  3. 选择GPU规格(建议≥24GB显存);
  4. 点击“立即创建”或“一键部署”;
  5. 等待实例初始化完成(约3-5分钟)。

部署完成后,你会获得一个SSH终端访问地址和一个Web服务端口(通常是8000或8080)。接下来,我们进入容器内部查看服务状态。

# SSH连接到实例 ssh user@your-instance-ip # 查看运行中的服务 ps aux | grep python

正常情况下,你应该能看到一个基于FastAPI的Web服务正在监听某个端口。如果没有,可以手动启动:

# 进入项目目录 cd /workspace/hy-mt-ocr-pipeline # 启动OCR+翻译一体化服务 python app.py --host 0.0.0.0 --port 8000

💡 提示:app.py是主服务脚本,通常封装了OCR识别模块和翻译模型加载逻辑。首次运行会自动从Hugging Face下载模型权重(约14GB),建议保持网络畅通。

2.3 验证服务是否正常运行

服务启动后,可以通过curl命令测试API是否可用:

# 测试健康检查接口 curl http://localhost:8000/health # 返回示例 {"status":"ok","model":"Tencent-HY-MT1.5-7B","ocr_engine":"PaddleOCR"}

如果返回status: ok,说明OCR和翻译模型均已成功加载。

你也可以通过浏览器访问http://<your-ip>:8000/docs,查看自动生成的Swagger API文档界面,方便调试和集成。


3. 核心流程:从PDF到翻译文本的完整链路

3.1 工作流拆解:四步完成端到端翻译

整个OCR+翻译流程可分为四个阶段,全部在同一个Python进程中完成,数据通过内存传递,避免写入磁盘:

[PDF文件] ↓ (读取页面图像) [OCR识别] → 提取文本 + 坐标信息 ↓ (结构化文本) [预处理] → 清洗噪声、分段、去重 ↓ (送入翻译模型) [HY-MT1.5-7B翻译] → 输出目标语言 ↓ [返回JSON或Markdown]

下面我们逐层解析每个环节的关键实现。

3.2 第一步:PDF转图像与OCR识别

扫描版PDF本质是图片集合。我们需要先将其每一页转换为图像,然后调用OCR引擎提取文字。

常用的OCR引擎有两种:PaddleOCREasyOCR。CSDN镜像默认集成的是PaddleOCR,因为它支持多语言、检测+识别一体化,且中文识别准确率高。

代码示例如下:

from paddleocr import PaddleOCR import fitz # PyMuPDF def pdf_to_images(pdf_path): doc = fitz.open(pdf_path) images = [] for page in doc: pix = page.get_pixmap(dpi=150) # 设置DPI提高识别精度 img_bytes = pix.tobytes("png") images.append(img_bytes) return images def ocr_images(images): ocr = PaddleOCR(use_angle_cls=True, lang='en') # 支持多语言 results = [] for img in images: result = ocr.ocr(img, cls=True) results.append(result) return results

这里的关键参数说明:

  • dpi=150:提高图像分辨率,有助于识别小字号或模糊文字;
  • use_angle_cls=True:启用方向分类器,自动纠正倾斜文本;
  • lang='en':指定源语言,也可设为auto让模型自动判断。

OCR返回的结果是一个嵌套列表,包含每个文本块的坐标、内容和置信度,便于后续结构还原。

3.3 第二步:文本提取与结构化处理

OCR输出的是按行或框组织的原始数据,我们需要将其转换为连续段落,并保留基本结构(如标题、列表)。

def extract_text_blocks(ocr_results): all_text = [] for page_result in ocr_results: if page_result is None: continue for line in page_result: for word_info in line: text = word_info[1][0] # 提取文字内容 confidence = word_info[1][1] # 置信度 if confidence > 0.7: # 过滤低置信度结果 all_text.append(text) return "\n".join(all_text)

你可以根据需要加入更多规则,例如:

  • 合并短句:将长度小于10字符的行与前一行合并;
  • 检测标题:字体较大或居中的文本标记为标题;
  • 表格重建:利用坐标信息尝试还原表格结构(较复杂,可选)。

这一步的目标是生成一段语义连贯、结构合理的源语言文本,作为翻译模型的输入。

3.4 第三步:调用HY-MT1.5-7B进行翻译

这是整个流程的核心。我们使用Hugging Face的Transformers库加载HY-MT1.5-7B模型:

from transformers import AutoTokenizer, AutoModelForSeq2SeqLM # 加载 tokenizer 和 model model_name = "Tencent/HY-MT1.5-7B" tokenizer = AutoTokenizer.from_pretrained(model_name) model = AutoModelForSeq2SeqLM.from_pretrained( model_name, device_map="auto", # 自动分配GPU torch_dtype="auto" ) # 翻译函数 def translate_text(text, src_lang="en", tgt_lang="zh"): prompt = f"translate {src_lang} to {tgt_lang}: {text}" inputs = tokenizer(prompt, return_tensors="pt", truncation=True, max_length=1024).to("cuda") outputs = model.generate( **inputs, max_new_tokens=1024, num_beams=4, early_stopping=True ) return tokenizer.decode(outputs[0], skip_special_tokens=True)

关键参数解释:

  • max_length=1024:限制输入长度,防止OOM;
  • max_new_tokens=1024:控制输出最大长度;
  • num_beams=4:束搜索宽度,值越大越准确但越慢;
  • early_stopping=True:一旦生成结束符就停止,提升效率。

由于7B模型较大,首次加载可能需要1-2分钟,后续推理速度约为每秒15-25个token(取决于硬件)。


4. 实战演示:翻译一篇英文论文PDF

4.1 准备测试文件

我们以一篇公开的英文机器学习论文PDF为例(如arXiv上的文章),上传到GPU实例的工作目录:

# 上传文件 scp paper.pdf user@your-instance-ip:/workspace/hy-mt-ocr-pipeline/ # 登录后确认文件存在 ls -l paper.pdf

4.2 编写完整翻译脚本

创建一个translate_pdf.py文件,整合前面所有步骤:

import sys from paddleocr import PaddleOCR import fitz from transformers import AutoTokenizer, AutoModelForSeq2SeqLM def main(pdf_path, output_file="translated.md"): # Step 1: PDF to images print("🔄 正在将PDF转为图像...") doc = fitz.open(pdf_path) ocr = PaddleOCR(use_angle_cls=True, lang='en') full_text = "" for i, page in enumerate(doc): print(f"🔍 正在处理第 {i+1} 页...") pix = page.get_pixmap(dpi=150) img_bytes = pix.tobytes("png") result = ocr.ocr(img_bytes, cls=True) page_text = "" for line in result: for word_info in line: text = word_info[1][0] conf = word_info[1][1] if conf > 0.7: page_text += text + " " full_text += page_text.strip() + "\n\n" # Step 2: Load MT model and translate print("🌐 正在加载翻译模型...") tokenizer = AutoTokenizer.from_pretrained("Tencent/HY-MT1.5-7B") model = AutoModelForSeq2SeqLM.from_pretrained( "Tencent/HY-MT1.5-7B", device_map="auto", torch_dtype="auto" ) print("📝 正在翻译全文...") inputs = tokenizer( f"translate en to zh: {full_text}", return_tensors="pt", truncation=True, max_length=1024 ).to("cuda") outputs = model.generate(**inputs, max_new_tokens=2048, num_beams=4) translated = tokenizer.decode(outputs[0], skip_special_tokens=True) # Step 3: 保存结果 with open(output_file, "w", encoding="utf-8") as f: f.write("# 翻译结果\n\n") f.write(translated) print(f"✅ 翻译完成!结果已保存至 {output_file}") if __name__ == "__main__": if len(sys.argv) < 2: print("Usage: python translate_pdf.py <pdf_file>") sys.exit(1) main(sys.argv[1])

4.3 运行脚本并查看结果

python translate_pdf.py paper.pdf

执行过程如下:

🔄 正在将PDF转为图像... 🔍 正在处理第 1 页... 🔍 正在处理第 2 页... ... 🌐 正在加载翻译模型... 📝 正在翻译全文... ✅ 翻译完成!结果已保存至 translated.md

打开translated.md,你会发现:

  • 基本语义准确,专业术语(如“neural network”、“gradient descent”)翻译正确;
  • 段落结构清晰,逻辑通顺;
  • 虽有个别句子略显生硬,但整体可读性强。

⚠️ 注意:对于超长文档,建议分页翻译或按章节切分,避免超出模型上下文长度。

4.4 优化建议:提升翻译质量与效率

为了获得更好的效果,你可以尝试以下优化:

  • 启用模型量化:使用INT8或GGUF格式降低显存占用,加快推理速度;
  • 添加术语表:在提示词中加入领域关键词,引导模型使用特定译法;
  • 后处理校对:结合规则引擎或小型BERT模型做拼写纠错;
  • 异步批处理:使用Celery或FastAPI Background Tasks处理多个PDF;
  • 缓存机制:对已翻译段落做哈希缓存,避免重复计算。

5. 总结

  • 一站式流程更高效:OCR与翻译在同一GPU环境中完成,避免中间文件传输,显著提升处理速度。
  • HY-MT1.5-7B翻译质量优秀:支持33种语言和多种方言,在专业文本上表现优于多数商用API。
  • CSDN镜像开箱即用:预装OCR引擎与翻译模型,一键部署,省去复杂配置。
  • 适合私有化部署:数据全程本地处理,保障企业文档安全性。
  • 现在就可以试试:无论是学术研究还是商业应用,这套方案都值得尝试,实测稳定高效。

获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1186906.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Ninja构建加速:极速编译的完整安装配置手册

Ninja构建加速&#xff1a;极速编译的完整安装配置手册 【免费下载链接】ninja a small build system with a focus on speed 项目地址: https://gitcode.com/gh_mirrors/ni/ninja 还在为项目构建时间过长而烦恼吗&#xff1f;Ninja构建系统正是您需要的解决方案。作为专…

M3-Agent-Control:AI智能体控制新手入门强力工具

M3-Agent-Control&#xff1a;AI智能体控制新手入门强力工具 【免费下载链接】M3-Agent-Control 项目地址: https://ai.gitcode.com/hf_mirrors/ByteDance-Seed/M3-Agent-Control 导语&#xff1a;面向AI智能体控制领域的初学者&#xff0c;M3-Agent-Control工具正式开…

DeepSeek-VL2-small:2.8B参数MoE多模态模型来了!

DeepSeek-VL2-small&#xff1a;2.8B参数MoE多模态模型来了&#xff01; 【免费下载链接】deepseek-vl2-small 融合视觉与语言的DeepSeek-VL2-small模型&#xff0c;采用MoE技术&#xff0c;参数高效&#xff0c;表现卓越&#xff0c;轻松应对视觉问答等多元任务&#xff0c;开…

GitHub Desktop中文界面转换解决方案

GitHub Desktop中文界面转换解决方案 【免费下载链接】GitHubDesktop2Chinese GithubDesktop语言本地化(汉化)工具 项目地址: https://gitcode.com/gh_mirrors/gi/GitHubDesktop2Chinese 项目背景与价值定位 在当前的软件开发环境中&#xff0c;GitHub Desktop作为Git图…

MinerU 2.5技术解析:PDF语义理解模型原理

MinerU 2.5技术解析&#xff1a;PDF语义理解模型原理 1. 引言 1.1 技术背景与行业痛点 在当前信息爆炸的时代&#xff0c;PDF文档作为科研、教育、企业办公等领域中最常见的文件格式之一&#xff0c;承载了大量结构复杂、语义丰富的数据。然而&#xff0c;传统PDF解析工具&a…

一键运行bert-base-chinese:中文语义相似度计算快速上手

一键运行bert-base-chinese&#xff1a;中文语义相似度计算快速上手 1. 引言 在中文自然语言处理&#xff08;NLP&#xff09;任务中&#xff0c;如何让机器真正“理解”文本的语义&#xff0c;一直是工程落地的核心挑战。传统的词袋模型或TF-IDF方法难以捕捉上下文依赖关系&…

Windows 7 SP2完整安装指南:让经典系统完美适配现代硬件

Windows 7 SP2完整安装指南&#xff1a;让经典系统完美适配现代硬件 【免费下载链接】win7-sp2 UNOFFICIAL Windows 7 Service Pack 2, to improve basic Windows 7 usability on modern systems and fully update Windows 7. 项目地址: https://gitcode.com/gh_mirrors/wi/w…

电商人像抠图新利器|CV-UNet Universal Matting镜像实现快速Alpha通道提取

电商人像抠图新利器&#xff5c;CV-UNet Universal Matting镜像实现快速Alpha通道提取 1. 引言&#xff1a;电商图像处理的痛点与技术演进 在电商平台日益激烈的竞争环境下&#xff0c;商品展示图的质量直接影响转化率。尤其是人像类商品&#xff08;如服装、配饰&#xff09…

Qwen3-VL-8B优化技巧:让多模态推理速度提升3倍

Qwen3-VL-8B优化技巧&#xff1a;让多模态推理速度提升3倍 随着边缘计算和本地化部署需求的快速增长&#xff0c;如何在有限硬件资源下高效运行高性能多模态模型成为关键挑战。Qwen3-VL-8B-Instruct-GGUF 作为阿里通义千问系列中“小身材、大能力”的代表&#xff0c;凭借其 8…

Tonzhon音乐播放器架构解析:基于React Hooks的现代化音频管理实现

Tonzhon音乐播放器架构解析&#xff1a;基于React Hooks的现代化音频管理实现 【免费下载链接】tonzhon-music 铜钟 (Tonzhon.com): 免费听歌; 没有直播, 社交, 广告, 干扰; 简洁纯粹, 资源丰富, 体验独特&#xff01;(密码重置功能已回归) 项目地址: https://gitcode.com/Gi…

如何用Trilium Notes打造高效个人知识管理系统

如何用Trilium Notes打造高效个人知识管理系统 【免费下载链接】Notes Build your personal knowledge base with Trilium Notes 项目地址: https://gitcode.com/gh_mirrors/notes20/Notes 想要告别信息碎片化&#xff0c;建立一个真正属于你自己的知识体系吗&#xff1…

电商客服录音转写实战:用Paraformer高效处理

电商客服录音转写实战&#xff1a;用Paraformer高效处理 1. 引言 在电商行业&#xff0c;客户服务是用户体验的关键环节。大量的电话、语音咨询记录中蕴含着宝贵的用户反馈、投诉建议和业务需求。然而&#xff0c;这些非结构化的语音数据若仅靠人工整理&#xff0c;效率低、成…

Qwen3-VL-4B-FP8:超轻量AI视觉推理加速神器

Qwen3-VL-4B-FP8&#xff1a;超轻量AI视觉推理加速神器 【免费下载链接】Qwen3-VL-4B-Thinking-FP8 项目地址: https://ai.gitcode.com/hf_mirrors/Qwen/Qwen3-VL-4B-Thinking-FP8 导语&#xff1a;阿里云推出Qwen3-VL-4B-Thinking-FP8超轻量视觉语言模型&#xff0c;通…

Qwen3-4B学术写作指南:云端GPU加速,比本地快5倍

Qwen3-4B学术写作指南&#xff1a;云端GPU加速&#xff0c;比本地快5倍 你是不是也经历过这样的场景&#xff1f;深夜赶论文&#xff0c;手头一堆文献要读&#xff0c;打开本地部署的Qwen3-4B模型准备做个摘要&#xff0c;结果等了20分钟才出结果&#xff0c;笔记本风扇呼呼作…

效果炸裂!SAM 3打造的智能抠图案例展示

效果炸裂&#xff01;SAM 3打造的智能抠图案例展示 1. 技术背景与核心价值 图像和视频中的对象分割是计算机视觉领域的一项基础且关键任务&#xff0c;广泛应用于内容创作、自动驾驶、医疗影像分析和增强现实等场景。传统方法往往依赖大量标注数据进行训练&#xff0c;并局限…

5步解锁AI文本分析:用大语言模型重塑主题建模新体验

5步解锁AI文本分析&#xff1a;用大语言模型重塑主题建模新体验 【免费下载链接】BERTopic Leveraging BERT and c-TF-IDF to create easily interpretable topics. 项目地址: https://gitcode.com/gh_mirrors/be/BERTopic 在当今信息爆炸的时代&#xff0c;如何从海量…

智能证件照生产工具:AI证件照制作工坊实战

智能证件照生产工具&#xff1a;AI证件照制作工坊实战 1. 引言 1.1 业务场景描述 在日常生活中&#xff0c;证件照是办理身份证、护照、签证、考试报名、简历投递等事务不可或缺的材料。传统方式依赖照相馆拍摄&#xff0c;流程繁琐、成本高且耗时长。即便使用Photoshop手动…

GTA5终极辅助工具YimMenu:新手快速上手指南

GTA5终极辅助工具YimMenu&#xff1a;新手快速上手指南 【免费下载链接】YimMenu YimMenu, a GTA V menu protecting against a wide ranges of the public crashes and improving the overall experience. 项目地址: https://gitcode.com/GitHub_Trending/yi/YimMenu Y…

从预设到自定义:Voice Sculptor实现精细化音色控制

从预设到自定义&#xff1a;Voice Sculptor实现精细化音色控制 1. 引言&#xff1a;语音合成的个性化需求演进 随着深度学习技术在语音合成领域的深入应用&#xff0c;传统TTS&#xff08;Text-to-Speech&#xff09;系统已逐步从“能说”向“说得像人”转变。然而&#xff0…

基于PaddleOCR-VL-WEB的多语言文档解析实践|高效识别文本、表格与公式

基于PaddleOCR-VL-WEB的多语言文档解析实践&#xff5c;高效识别文本、表格与公式 1. 引言&#xff1a;复杂文档解析的现实挑战 在企业数字化转型加速的今天&#xff0c;大量历史资料、合同文件、科研论文和工程图纸仍以图像或扫描PDF的形式存在。这些非结构化数据构成了“信…