MinerU学术爬虫方案:自动下载论文+解析结构化数据

MinerU学术爬虫方案:自动下载论文+解析结构化数据

你是不是也遇到过这样的问题?科研团队要构建某个领域的文献库,需要从各大期刊官网、arXiv、机构数据库批量下载PDF格式的论文,然后提取标题、作者、摘要、关键词、参考文献、图表和公式等信息。传统做法是手动打开每篇PDF,复制粘贴内容,不仅效率低,还容易出错。

更头疼的是,很多论文排版复杂,包含表格、数学公式、插图说明,甚至扫描版PDF,普通工具根本没法准确提取结构化数据。而实验室本地服务器性能有限,跑不动大型AI模型,导致处理速度慢、显存爆满、任务频繁中断。

别急——今天我要分享一个实测非常稳的解决方案:MinerU学术爬虫自动化流程。它能帮你实现:

  • 自动爬取指定网站或源的学术论文PDF
  • 利用GPU加速,快速将PDF转换为结构化的Markdown或JSON数据
  • 精准识别文本、表格、图片描述、数学公式(转LaTeX)、脚注等内容
  • 支持OCR处理扫描版/乱码PDF,确保不漏关键信息
  • 一键部署在高性能算力平台上,彻底摆脱本地服务器性能瓶颈

我亲自用这个方案帮一个生物信息学团队处理了上千篇Nature子刊论文,原本预计要两周的工作,三天就完成了,而且提取质量远超人工整理。接下来我会手把手带你搭建这套系统,哪怕你是技术小白,也能照着步骤一步步操作成功。


1. 为什么MinerU适合科研文献自动化处理?

1.1 传统PDF工具的三大痛点

我们先来聊聊常见的PDF处理方式有哪些“坑”。

第一类是像Adobe Acrobat、WPS这类办公软件,虽然能导出文本或Word,但面对复杂的学术论文时,经常出现以下问题:

  • 表格错位、列合并错误
  • 数学公式变成乱码或图片无法提取
  • 图片标题与正文顺序错乱
  • 多栏排版的内容被错误拼接

第二类是编程库,比如PyPDF2pdfplumberfitz (PyMuPDF)。它们比图形工具灵活,但也有明显短板:

  • 不支持OCR,遇到扫描版PDF直接失效
  • 公式识别能力为零,只能当普通文本处理
  • 没有语义理解能力,分不清“摘要”和“引言”的区别
  • 需要大量自定义代码做后处理,开发成本高

第三类是基于规则的文档解析器,比如Grobid。它对学术论文有一定适配性,但在中文论文、非标准排版、图像密集型论文上表现不稳定,且部署复杂,调参困难。

总结一句话:这些工具要么太弱,要么太难用,都不适合大规模、高质量的科研文献处理需求

1.2 MinerU的核心优势:AI驱动的智能解析

MinerU是由上海人工智能实验室 OpenDataLab 团队推出的开源PDF解析工具,它的本质是一个多模态大模型驱动的文档理解系统,不是简单的“读取+导出”,而是真正“看懂”文档结构。

你可以把它想象成一个精通排版规则、懂数学符号、会读图表的专业研究员,它看到一篇PDF后,能自动判断:

  • 哪里是标题、作者单位、摘要
  • 哪些是正文段落,哪些是引用
  • 表格的行列关系是否正确
  • 插图下方的文字是不是caption
  • 公式是行内还是独立显示,并准确转为LaTeX

而且它支持多种输入模式:

  • 原生PDF文本提取:适用于电子版论文
  • OCR增强模式:针对扫描件或模糊PDF启用光学识别
  • 混合解析管道:结合布局分析模型 + 视觉语言模型(VLM)提升精度

最关键是——它支持GPU加速!这意味着你可以利用CSDN星图平台提供的高性能NVIDIA显卡(如A100、V100、3090等),把单篇论文的解析时间从几分钟压缩到几秒钟。

1.3 实测对比:MinerU vs 传统方法

为了让你直观感受差距,我做了个小实验:选取50篇来自IEEE和Springer的计算机领域论文(含英文、中英双语、部分扫描件),分别用三种方式处理:

方法平均处理时间/篇表格提取准确率公式识别成功率是否支持OCR
PyPDF2 + 手动修正8分钟42%0%
Grobid(默认配置)3.5分钟68%75%部分
MinerU(GPU加速)45秒96%98%

⚠️ 注意:Grobid虽然免费开源,但对中文支持差,且无法处理图像中的文字;PyPDF2完全依赖原始文本流,遇到换行断裂就崩溃。

更重要的是,MinerU输出的是结构化数据,可以直接导入数据库或用于训练大模型。比如一段典型的输出如下:

{ "title": "基于深度学习的蛋白质结构预测研究", "authors": ["张伟", "李娜", "王强"], "abstract": "本文提出一种新的卷积神经网络架构...", "sections": [ { "heading": "1 引言", "content": "近年来,随着AlphaFold的突破...", "tables": [], "figures": [], "formulas": [] }, { "heading": "2 方法", "content": "我们设计了一个双分支网络...", "tables": [ { "caption": "表1:不同模型在CASP14上的RMSE对比", "html": "<table>...</table>" } ], "formulas": [ "$$ E = mc^2 $$" ] } ] }

这种格式特别适合后续做知识图谱构建、语料库建设、自动摘要生成等高级应用。


2. 如何部署MinerU并接入GPU资源?

2.1 选择合适的部署环境

MinerU本身是一个Python项目,依赖多个深度学习模型(如Layout Parser、Table Transformer、OCR引擎等),对计算资源要求较高。如果你尝试在普通笔记本或低配服务器上运行,很可能会遇到:

  • 显存不足(OOM)错误
  • 解析速度极慢(每页超过30秒)
  • 多任务并发失败

所以强烈建议使用带GPU的云算力平台进行部署。CSDN星图镜像广场提供了预装MinerU的专用镜像,省去了繁琐的环境配置过程。

这个镜像已经集成了:

  • CUDA 11.8 + cuDNN
  • PyTorch 2.0
  • Transformers 库
  • PaddleOCR(用于中文OCR)
  • MinerU主程序及所有依赖项
  • Jupyter Lab 和 FastAPI 接口

你只需要点击“一键启动”,就能获得一个 ready-to-use 的MinerU服务端。

2.2 一键部署操作步骤

下面是我实际操作的完整流程,全程不超过5分钟:

  1. 登录 CSDN 星图平台,进入【镜像广场】
  2. 搜索关键词 “MinerU” 或浏览“AI文档处理”分类
  3. 找到名为MinerU-PDF-Parser-v2.5的镜像(版本号可能更新)
  4. 选择实例规格:
  5. GPU型号:推荐NVIDIA A10G / V100 / A100(显存≥16GB)
  6. 存储空间:至少50GB SSD(用于缓存PDF和中间文件)
  7. 网络带宽:≥10Mbps(便于上传/下载大量文件)
  8. 点击“立即创建”,等待3~5分钟系统自动初始化完成

💡 提示:首次使用可以选择“按小时计费”模式,测试通过后再切换成长期套餐,节省成本。

部署完成后,你会得到一个带有公网IP的虚拟机实例,可以通过以下两种方式访问:

  • Web UI界面:浏览器访问http://<你的IP>:7860,进入可视化操作面板
  • API接口:通过http://<你的IP>:8000/docs查看FastAPI自动生成的文档,支持POST请求上传PDF并获取结构化结果

2.3 验证安装是否成功

连接到实例后,你可以先进入终端执行一条测试命令:

python -c " from mineru import DocumentAI doc = DocumentAI() result = doc.parse('sample.pdf') # 假设你有一个测试PDF print(result['title']) "

如果正常输出论文标题,说明核心模块加载成功。

也可以直接上传一篇PDF到Web界面,观察解析进度条和最终输出效果。建议先用一篇结构清晰的arXiv论文(如cs.AI类别)做测试,避免一开始就挑战复杂排版。

2.4 显存优化技巧:让8GB GPU也能跑起来

有些用户担心:“我没有16GB以上显存,能不能用?”答案是可以的!

根据官方最新优化(shl/MinerU项目更新),通过关闭部分加速功能,可以在8GB显存下运行大部分任务。具体操作是在启动时设置参数:

doc = DocumentAI( layout_model="small", # 使用轻量级布局模型 formula_enable=False, # 关闭公式识别(或改为CPU模式) table_accelerate=False, # 关闭表格加速 ocr_force_gpu=False # OCR部分使用CPU )

这样虽然速度会下降约40%,但依然比纯CPU快2倍以上,适合预算有限的研究组。

另外,还可以开启“分页处理”模式,只解析关键章节(如摘要、引言、结论),进一步降低资源消耗。


3. 构建自动化学术爬虫工作流

3.1 整体架构设计

我们现在有了强大的解析引擎(MinerU),接下来要解决的是“如何自动获取论文”这个问题。

完整的学术爬虫方案应该包括以下几个模块:

[目标网站] ↓ (爬取PDF链接) [爬虫调度器] → [下载队列] → [本地存储] ↓ [MinerU解析引擎] → [结构化数据] ↓ [数据库/知识库] ← [去重 & 清洗]

整个流程可以拆解为三个阶段:

  1. 数据采集层:负责发现和下载目标论文PDF
  2. 数据处理层:调用MinerU进行结构化解析
  3. 数据存储层:将结果存入MySQL、MongoDB或Elasticsearch供检索分析

下面我们逐个讲解如何实现。

3.2 数据采集:安全合规地获取论文PDF

这里要强调一点:必须遵守各出版商的robots.txt协议和版权规定,不能无限制抓取付费内容。我们主要聚焦于开放获取(Open Access)资源,例如:

  • arXiv.org(所有论文均可免费下载)
  • PubMed Central(PMC,生物医学领域)
  • DOAJ(开放获取期刊目录)
  • 各大学术机构的公开仓储(如CNKI的OA论文)

以arXiv为例,我们可以使用其官方API来获取论文列表:

import requests import feedparser def fetch_arxiv_papers(query="cs.AI", max_results=100): url = f'http://export.arxiv.org/api/query?search_query={query}&start=0&max_results={max_results}' feed = feedparser.parse(url) papers = [] for entry in feed.entries: paper = { 'title': entry.title, 'authors': [author.name for author in entry.authors], 'summary': entry.summary, 'pdf_url': entry.link.replace('/abs/', '/pdf/') + '.pdf', 'published': entry.published } papers.append(paper) return papers

拿到PDF链接后,用requests批量下载:

import os import requests def download_pdf(pdf_url, save_path): try: response = requests.get(pdf_url, timeout=30) with open(save_path, 'wb') as f: f.write(response.content) return True except Exception as e: print(f"下载失败: {pdf_url}, 错误: {e}") return False

⚠️ 注意:设置合理的请求间隔(如每秒1次),避免被封IP。可配合代理池使用。

3.3 自动化解析流水线

现在我们把下载好的PDF交给MinerU处理。为了提高效率,建议采用批处理+异步调用的方式。

编写一个主控脚本pipeline.py

from mineru import DocumentAI import json import os # 初始化解析器 doc = DocumentAI( layout_model="large", formula_enable=True, table_accelerate=True, ocr_force_gpu=True ) def process_paper(pdf_path): try: result = doc.parse(pdf_path) # 保存为JSON json_path = pdf_path.replace(".pdf", ".json") with open(json_path, 'w', encoding='utf-8') as f: json.dump(result, f, ensure_ascii=False, indent=2) print(f"✅ 成功解析: {pdf_path}") return True except Exception as e: print(f"❌ 解析失败: {pdf_path}, 错误: {str(e)}") return False # 主流程 if __name__ == "__main__": pdf_dir = "./papers/" success_count = 0 for fname in os.listdir(pdf_dir): if fname.endswith(".pdf"): pdf_path = os.path.join(pdf_dir, fname) if process_paper(pdf_path): success_count += 1 print(f"🎉 总共处理 {len(os.listdir(pdf_dir))} 篇,成功 {success_count} 篇")

把这个脚本放在GPU服务器上,配合nohup python pipeline.py &后台运行,就可以全自动处理整个文件夹的论文。

3.4 结构化数据入库与去重

解析完成后,我们需要把这些JSON数据导入数据库,方便后续查询和分析。

以MongoDB为例,插入代码如下:

from pymongo import MongoClient import json client = MongoClient("mongodb://localhost:27017/") db = client["academic_db"] collection = db["papers"] def insert_to_db(json_file): with open(json_file, 'r', encoding='utf-8') as f: data = json.load(f) # 使用标题+作者作为唯一键防止重复 filter_key = {"title": data["title"], "authors": data["authors"]} update_result = collection.replace_one(filter_key, data, upsert=True) if update_result.upserted_id: print("🆕 新增记录") else: print("🔄 已存在,跳过")

你还可以添加全文索引,支持关键词搜索:

// 在Mongo Shell中执行 db.papers.createIndex({"title": "text", "abstract": "text", "content": "text"})

之后就能用$text查询快速定位相关内容:

results = collection.find( {"$text": {"$search": "transformer model"}}, {"score": {"$meta": "textScore"}} ).sort([("score", {"$meta": "textScore"})])

4. 关键参数设置与常见问题解决

4.1 提高大文件解析成功率的技巧

有些论文长达上百页,直接解析容易失败。根据社区经验(opendatalab MinerU issue #9),可以采取以下措施:

  • 设置最大页数限制:max_pages=1000
  • 启用“强制OCR”模式:对于字体嵌入异常的PDF有效
  • 分段解析:只处理前50页的关键章节
  • 增加超时时间:避免因处理太久被中断

示例代码:

result = doc.parse( "huge_paper.pdf", max_pages=50, # 只解析前50页 force_ocr=True, # 强制启用OCR timeout=600 # 超时时间设为10分钟 )

4.2 中文论文处理注意事项

MinerU原生支持中文,但由于训练数据偏向英文科技论文,在处理纯中文社科类文献时可能出现:

  • 小标题识别不准
  • 段落分割过于碎片化
  • 参考文献格式混乱

解决方案:

  1. 使用PaddleOCR作为后备OCR引擎(已在镜像中预装)
  2. 添加自定义规则后处理,比如合并短段落
  3. 对“参考文献”章节单独调用专门的bibliography parser
# 强制使用中文OCR doc = DocumentAI(ocr_lang="ch_sim")

4.3 多GPU并行处理策略

如果你有多个GPU,可以通过进程池实现并发解析:

from multiprocessing import Pool import os def worker(pdf_path): # 每个进程绑定一个GPU gpu_id = os.getpid() % 4 # 假设有4块GPU os.environ["CUDA_VISIBLE_DEVICES"] = str(gpu_id) from mineru import DocumentAI doc = DocumentAI() return doc.parse(pdf_path) if __name__ == '__main__': pdf_list = [...] # 所有待处理PDF路径 with Pool(processes=4) as pool: results = pool.map(worker, pdf_list)

这样可以充分利用硬件资源,显著缩短整体处理时间。

4.4 常见错误及应对方法

错误现象可能原因解决方案
CUDA out of memory显存不足降低batch size,关闭非必要加速功能
ImportError: No module named 'mineru'环境未正确安装检查是否激活了正确的Python环境
Connection refusedAPI服务未启动运行uvicorn app:app --host 0.0.0.0 --port 8000
表格内容为空表格识别失败启用table_accelerate=True,或尝试重新排版PDF
公式显示为图片LaTeX转换失败更新至MinerU 2.5+版本,检查公式检测模型加载状态

总结

  • MinerU是一款专为复杂PDF设计的AI解析工具,特别适合科研论文的结构化提取
  • 借助CSDN星图平台的一键镜像,可在几分钟内部署带GPU加速的MinerU服务
  • 结合爬虫脚本与自动化流水线,可实现从论文下载到数据入库的全流程无人值守
  • 合理配置参数(如OCR、公式识别、显存优化)能显著提升处理成功率和效率
  • 实测表明,该方案相比传统方法速度快5倍以上,结构化数据质量更高,值得科研团队采纳

现在就可以试试这套方案,把你们积压的文献资料快速转化为可用的知识资产。我在实际项目中验证过它的稳定性,只要配置得当,连续处理上千篇论文也不会出问题。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1160882.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

一句话识别多种信息,SenseVoiceSmall功能全解析

一句话识别多种信息&#xff0c;SenseVoiceSmall功能全解析 1. 技术背景与核心价值 在传统语音识别&#xff08;ASR&#xff09;系统中&#xff0c;模型的主要任务是将音频信号转换为文字。然而&#xff0c;在真实应用场景中&#xff0c;用户不仅关心“说了什么”&#xff0c…

一句话生成前后端及代码+数据库?vibecoding发展成这样了?

作为一个只有周末有空的独立开发者&#xff0c;我最痛恨的就是“搭架子”。上周末&#xff0c;我想验证一个“K12 教育管理系统”的 Idea。按照以前的流程&#xff1a;初始化项目 配置 Tailwind 写 Node 后端 连数据库 调通 API 接口&#xff0c;没 3 天下不来。等环境跑通…

开发者必看:YOLOv8+Ultralytics镜像5大优势实战解析

开发者必看&#xff1a;YOLOv8Ultralytics镜像5大优势实战解析 1. 引言&#xff1a;工业级目标检测的现实挑战 在智能制造、安防监控、零售分析等实际场景中&#xff0c;实时多目标检测是构建智能视觉系统的核心能力。传统方案常面临模型部署复杂、推理速度慢、小目标漏检等问…

批量生成卡住了?这3个常见问题你要知道

批量生成卡住了&#xff1f;这3个常见问题你要知道 在使用 Heygem数字人视频生成系统批量版webui版 进行大规模数字人视频制作时&#xff0c;很多用户会遇到“处理卡住”“进度不动”“长时间无响应”等问题。这些问题不仅影响效率&#xff0c;还可能导致任务中断、资源浪费。…

无NVIDIA显卡能运行吗?unet CPU模式性能实测报告

无NVIDIA显卡能运行吗&#xff1f;unet CPU模式性能实测报告 1. 背景与问题提出 在当前AI图像生成和风格迁移领域&#xff0c;UNet架构被广泛应用于人像卡通化任务。基于阿里达摩院ModelScope平台发布的cv_unet_person-image-cartoon模型&#xff0c;开发者“科哥”构建了一款…

深度测评MBA必看!10个一键生成论文工具全维度对比

深度测评MBA必看&#xff01;10个一键生成论文工具全维度对比 2026年MBA论文写作工具测评&#xff1a;为何需要一份全面榜单&#xff1f; MBA学习过程中&#xff0c;论文写作是不可避免的重要环节。面对复杂的商业案例分析、数据解读与理论应用&#xff0c;许多学生常因时间紧张…

Keil uVision5下载后的驱动安装与设备支持配置示例

Keil uVision5 安装后驱动与设备支持配置实战指南 你是否曾在完成 Keil uVision5 下载 后&#xff0c;满怀期待地连接开发板&#xff0c;却在点击“Download”时遭遇“Cannot connect to target”&#xff1f;又或者明明芯片型号选对了&#xff0c;却提示“Unknown Device”…

Blender3mfFormat插件终极指南:5分钟快速上手3D打印专业文件处理

Blender3mfFormat插件终极指南&#xff1a;5分钟快速上手3D打印专业文件处理 【免费下载链接】Blender3mfFormat Blender add-on to import/export 3MF files 项目地址: https://gitcode.com/gh_mirrors/bl/Blender3mfFormat 想要在Blender中轻松处理3D打印文件吗&#…

Qwen2.5-7B与DeepSeek对比:代码能力实测

Qwen2.5-7B与DeepSeek对比&#xff1a;代码能力实测 1. 技术背景与评测目标 随着大模型在开发者场景中的广泛应用&#xff0c;代码生成能力已成为衡量语言模型实用性的关键指标之一。近年来&#xff0c;70亿参数级别的模型凭借“性能与成本”的良好平衡&#xff0c;成为本地部…

语音助手开发基础:FSMN-VAD本地检测部署入门

语音助手开发基础&#xff1a;FSMN-VAD本地检测部署入门 1. 引言 在语音交互系统中&#xff0c;语音端点检测&#xff08;Voice Activity Detection, VAD&#xff09;是至关重要的预处理环节。它负责从连续音频流中准确识别出有效语音片段的起止时间&#xff0c;自动剔除静音…

15分钟精通3MF格式:Blender3mfFormat插件从零到专业实战指南

15分钟精通3MF格式&#xff1a;Blender3mfFormat插件从零到专业实战指南 【免费下载链接】Blender3mfFormat Blender add-on to import/export 3MF files 项目地址: https://gitcode.com/gh_mirrors/bl/Blender3mfFormat 在3D打印技术快速迭代的今天&#xff0c;3MF格式…

multisim仿真电路图分析静态工作点稳定性:系统学习

从电路失真到稳定放大&#xff1a;用Multisim深入理解BJT静态工作点的“生死线”你有没有遇到过这样的情况&#xff1f;一个看似设计完美的共射放大电路&#xff0c;在实验室里刚上电时输出清晰&#xff0c;可运行半小时后信号就开始削顶、波形扭曲——明明参数算得没错&#x…

IQuest-Coder-V1-40B-Instruct代码审查AI助手部署完整教程

IQuest-Coder-V1-40B-Instruct代码审查AI助手部署完整教程 1. 引言&#xff1a;构建下一代代码智能辅助系统 1.1 学习目标与技术背景 随着大语言模型在软件工程领域的深入应用&#xff0c;自动化代码生成、缺陷检测和智能重构已成为提升开发效率的核心手段。IQuest-Coder-V1…

百度网盘直链解析工具:高效下载的终极解决方案

百度网盘直链解析工具&#xff1a;高效下载的终极解决方案 【免费下载链接】baidu-wangpan-parse 获取百度网盘分享文件的下载地址 项目地址: https://gitcode.com/gh_mirrors/ba/baidu-wangpan-parse 百度网盘直链解析工具是一款专门针对百度网盘分享链接设计的实用工具…

语义嵌入模型怎么选?BAAI/bge-m3综合评测报告发布

语义嵌入模型怎么选&#xff1f;BAAI/bge-m3综合评测报告发布 1. 引言&#xff1a;语义嵌入技术的演进与选型挑战 随着大语言模型&#xff08;LLM&#xff09;在问答、搜索、推荐等场景中的广泛应用&#xff0c;语义嵌入&#xff08;Semantic Embedding&#xff09; 技术作为…

如何优化Qwen3-Embedding-0.6B的响应速度?调优经验分享

如何优化Qwen3-Embedding-0.6B的响应速度&#xff1f;调优经验分享 1. 引言&#xff1a;为何需要优化嵌入模型的响应速度&#xff1f; 在现代信息检索系统中&#xff0c;文本嵌入模型作为语义理解的核心组件&#xff0c;其响应速度直接影响整体系统的用户体验和吞吐能力。Qwe…

opencode代码风格统一:AI重构部署实战教程

opencode代码风格统一&#xff1a;AI重构部署实战教程 1. 引言 1.1 学习目标 本文将带你从零开始&#xff0c;掌握如何使用 OpenCode 框架结合 vLLM 部署本地大模型&#xff08;Qwen3-4B-Instruct-2507&#xff09;&#xff0c;实现终端级 AI 编程辅助&#xff0c;并重点演示…

MATLAB实现核化局部敏感哈希(KLSH)编码函数详解

核化局部敏感哈希(Kernelized LSH)编码函数在MATLAB中的实现与解析 局部敏感哈希(Locality-Sensitive Hashing,LSH)是一种经典的近似最近邻搜索技术,而其核化版本(Kernelized LSH,简称KLSH)通过引入核技巧,将原始LSH从欧氏空间扩展到隐式的高维核特征空间,从而能够…

MATLAB实现:Laplacian Eigenmap流形学习算法详解

在高维数据中,往往隐藏着低维的流形结构。Laplacian Eigenmap(拉普拉斯特征映射,简称LE)是一种经典的非线性降维方法,它通过构建数据的局部邻接关系图(亲和矩阵W),利用图拉普拉斯矩阵的谱性质,将数据嵌入到低维空间中,同时尽可能保持原始数据的局部几何结构。 今天我…

2025 中小企业 CRM 选型指南——高性价比 CRM TOP5

一套适配的 CRM 能帮中小企业解决 3 大核心痛点&#xff1a;客户资源流失、销售效率低下、决策缺乏数据支撑。例如某工贸企业通过 CRM 整合客户跟进记录&#xff0c;客户流失率下降 28%&#xff1b;某电商团队借助自动化流程&#xff0c;手动录入工作量减少 60%。二、中小企业必…