网站主机教程WordPress建站维护服务

web/2025/10/6 23:14:19/文章来源:
网站主机教程,WordPress建站维护服务,项目外包和人力外包哪个好,建筑铝模板多少钱一平方米此项目是针对PDF、docx、doc、PPT四种非结构化数据进行解析#xff0c;识别里面的文本和图片。 代码结构 ├── Dockerfile ├── requirements ├── resluts ├── test_data │ ├── 20151202033304658.pdf │ ├── 2020_World_Energy_Data.pdf │ ├── …此项目是针对PDF、docx、doc、PPT四种非结构化数据进行解析识别里面的文本和图片。 代码结构 ├── Dockerfile ├── requirements ├── resluts ├── test_data │ ├── 20151202033304658.pdf │ ├── 2020_World_Energy_Data.pdf │ ├── 2022110404_pdf.docx │ ├── 2022110404_pdf.pdf │ ├── H3_AP201701200282787162_01.pdf │ ├── H3_AP202205271568109307_1.pdf │ ├── H3_AP202205271568109307_1.pptx │ ├── test.pdf │ ├── test.pptx │ ├── test_table.pdf │ └── test_word.docx ├── Unstr_ApiSever.py ###----------API服务 ├── Unstructured_PDF_Operation_Code.py ├── Unstructured_PPT_Operation_Code.py ├── Unstructured_Word_Operation_Code.pyPDF操作 部分代码展示 import fitz,os doc fitz.open(./test_data/2022110404_pdf.pdf) def func(doc):for i in range(len(doc)):imglist doc.getPageImageList(i)for j, img in enumerate(imglist):xref img[0]pix fitz.Pixmap(doc, xref) # make pixmap from imageif pix.n - pix.alpha 4: # can be saved as PNGpix.writePNG(p%s-%s.png % (i 1, j 1))else: # CMYK: must convert firstpix0 fitz.Pixmap(fitz.csRGB, pix)pix0.writePNG(p%s-%s.png % (i 1, j 1))pix0 None # free Pixmap resourcespix None # free Pixmap resourcesif __name__ __main__:func(docfitz.open(./test_data/2022110404_pdf.pdf)) # input the path of pdf filefunc1(./test_data) # input the path of pdf file pdf_path ./test_data/2022110404_pdf.pdfdoc fitz.open(pdf_path)num_pages doc.page_count# Text info of PDFfor page_index in range(num_pages):page doc.load_page(page_index)text page.get_text()print(f第{page_index 1}页的文本内容为\n{text}\n)结果如下 word操作 import docx import os, re from docx import Documentclass Word:Word操作def Word_get_pictures(self,infile):try:in_File infile.split(/)[2][:-5] ##---------Word名称new_filepath os.path.join(%s/%s) % (./resluts, in_File)doc docx.Document(infile)dict_rel doc.part._relsfor rel in dict_rel:rel dict_rel[rel]if image in rel.target_ref:if not os.path.exists(new_filepath):os.makedirs(new_filepath)img_name re.findall(/(.*), rel.target_ref)[0]word_name os.path.splitext(new_filepath)[0]if os.sep in word_name:new_name word_name.split(\\)[-1]else:new_name word_name.split(/)[-1]img_name f{new_name}- - f{img_name}with open(f{new_filepath}/{img_name}, wb) as f:f.write(rel.target_part.blob)except:passdef Word_Get_txt(self,infile):in_File infile.split(/)[2][:-5] ##---------Word名称new_filepath os.path.join(%s/%s) % (./resluts, in_File)document Document(infile)all_paragraphs document.paragraphsall_tables document.tableswith open(os.path.join(%s/%s.txt) % (new_filepath, resluts), w, encodingutf-8) as f:for paragraph in all_paragraphs:# print(paragraph.text.replace( , ).replace( , ))f.write(paragraph.text.replace( , ).replace( , ))for table in all_tables:for row in table.rows:for cell in row.cells:f.write(cell.text)# print(cell.text) # 打印 if __name__ __main__:# 获取文件夹下的word文档列表,路径自定义# os.chdir(./test_data/2022110404_pdf.docx)Word().Word_get_pictures(./test_data/2022110404_pdf.docx)Word().Word_Get_txt(./test_data/2022110404_pdf.docx)结果如下 PPT操作 import os from zipfile import ZipFile from pptx import Presentation from docx import Documentclass PPT:def PPT_get_pictrue(self,infile):in_File infile.split(/)[2][:-5] new_filepath os.path.join(%s/%s) % (./resluts, in_File)if not os.path.exists(new_filepath):os.makedirs(new_filepath)with ZipFile(infile) as f:for file in f.namelist():if file.startswith(ppt/media/):f.extract(file, pathnew_filepath)return new_filepathdef PPT_get_words_to_txt(self,inpath, outpath):m_ppt Presentation(inpath)# print(len(m_ppt.slides))with open(os.path.join(%s/%s.txt) % (outpath, resluts), w, encodingutf-8) as f:for slide in m_ppt.slides: for shape in slide.shapes:if not shape.has_text_frame: continuefor paragraph in shape.text_frame.paragraphs: for content in paragraph.runs:f.write(content.text \n)def PPT_get_words_to_docx(self,filepath,save_path):wordfile Document()pptx Presentation(filepath)for slide in pptx.slides:for shape in slide.shapes:if shape.has_text_frame:text_frame shape.text_framefor paragraph in text_frame.paragraphs:wordfile.add_paragraph(paragraph.text)wordfile.save(save_path)if __name__ __main__:infile ./test_data/OpenCV算法解析.pptxnew_infilePPT().PPT_get_pictrue(infile)PPT().PPT_get_words_to_txt(infile,new_infile)结果如下

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/88150.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

公众号网站开发定制鱼缸一般多少钱

接上一篇:分布式6大核心专题_分布式Session https://gblfy.blog.csdn.net/article/details/113802195 文章目录1. 安装redis服务并启动2. 引入Spring Session组件3. 分别启动8081端口和8082端口4. 调用8081登录接口5. 调用8081获取用户信息接口6. 调用8082获取用户信…

优惠卷网站建设怎么挣钱带登录网站模板

程序示例精选 PythonQt多点最短路径(最优路径)算法实现 如需安装运行环境或远程调试,见文章底部个人QQ名片,由专业技术人员远程协助! 前言 这篇博客针对《PythonQt多点最短路径(最优路径)算法实现》编写代码,代码整洁&#xff0…

中国建设银行网站如何注册学校的网站开发过程

新加坡服务器数据中心怎么保护网络安全原创 保护新加坡服务器数据中心的网络安全是一个重要的任务,以下是一些常见的保护网络安全的办法和办法: 防火墙设置:装备和办理强壮的防火墙来监控和过滤网络流量,阻止未经授权的拜访和歹意…

页面设计排版网站中国化学第九建设公司网站

哲学:世界观的理论形态,或者说是系统化、理论化的世界观;世界观和方法论的统一。马克思主义哲学:辩证唯物主义和历史唯物主义,关于自然。社会和思维发展的普遍规律的学说,无产阶级世界观的理论体系。世界观…

公司建网站做app要多少钱舟山网站网站建设

目录 一. nginx介绍 1. nginx简介 2. nginx和apache区别 二. nginx编译安装 1. 下载解压nginx安装包,并安装nginx依赖包 2. 创建运行用户和组 3. 编译安装并补全 4. 效验结果 三. 平滑升级nginx 1. 下载解压nginx安装包 2. 编译安装 3. 替换二进制文件 …

域名服务器地址seo优化与推广招聘

1 什么是block iOS SDK 4.0開始,Apple引入了block这一特性。字面上说,block就是一个代码块。可是它的奇妙之处在于在内联(inline)运行的时候(这和C非常像)还能够传递參数。同一时候block本身也能够被作为參数在方法和函数间传递。这就给予了block无限的可…

阿里云学生认证免费服务器网站seo外链平台

01、函数指针1.1、函数指针定义一个函数总是占用一段连续的内存区域,函数名在表达式中有时也会被转换为该函数所在内存区域的首地址,这和数组名非常类似。我们可以把函数的这个首地址(或称入口地址)赋予一个指针变量,使…

摄影网站的建设的论文商店设计效果图

目录 1. Nginx在CentOS上的安装部署 1.1 Nginx简介 1.2 Nginx安装 1.2.1 安装yum依赖程序 1.2.2 手动添加,nginx的yum仓库 1.2.3 通过yum安装最新稳定版的nginx 1.2.4 启动 1.2.5 配置防火墙放行 1.2.6 启动后浏览器输入Linux服务器的IP地址或主机…

网站审核备案 几天天津网站快速备案

在浏览器gerrit的设置界面设置的邮箱地址和在命令行使用git config --gloable user.email设置的邮箱地址必须保持一致吗 在浏览器gerrit的设置界面设置的邮箱地址和在命令行使用git config --global user.email设置的邮箱地址并不一定需要保持一致。这两个邮箱地址是独立的&am…

网站建设的费用是不是含税的哪个小说网站防盗做的好

组件拆分 先把项目搭建时生成的代码给清了吧 现在static目录下引入reset.css 接着在index.html引入&#xff0c;并且设置<meta> 有时候呢&#xff0c;为了让代码符合我们平时的编码习惯&#xff0c;我们可以在ESLint进行设置&#xff0c;如下&#xff1a; 回到入口js文件…

网站开发文件综述沈阳商城网站开发

开关式智能充电机-全自动充电机-铅酸电池充电机品牌-济南能华NHCD系列 全自动智能充电机&#xff0c;可调智能充电机&#xff0c;可调直流充电机&#xff0c;可调全自动充电机 &#xff0c;可调蓄电池充电机 便携式可调智能充电机 便携式全自动充电机 大功率可调充电机 大功率智…

网站建设与发布的预算专业网站设计的公司

H263码流尺寸规格有限&#xff0c;只有以下几种&#xff1a; H263码流有四个分层&#xff1a; 1、图像层 2、块组 3、宏块 4、块 下面分别介绍&#xff1a; 具体介绍如下&#xff0c;5.1.3中红色框选部分就是压缩码流的宽高指示&#xff1a; 图像层 上面就是H263的图像层&am…

网站建设运营成本上海网站建设上海员君

出生于中国镇江的艺术家刘汉清&#xff0c;其作品展现出他对日常生活的深入洞察力&#xff0c;以及对美的独特理解。他的作品通常没有视觉参考&#xff0c;而是通过对他周围环境的理解&#xff0c;尤其是他的宠物&#xff0c;来进行创作。 在刘汉清的创作过程中&#xff0c;他…

网站首页布局有哪些网站域名到期不续费会怎么样

ChatGPT无限次数:点击直达 利用ChatGPT提升学术论文写作技巧 在当今信息爆炸的时代&#xff0c;学术界对于深入研究和撰写高质量论文的要求越来越高。然而&#xff0c;许多研究人员和学生常常感到写作过程困难&#xff0c;需要花费大量时间和精力。这时候&#xff0c;人工智能…

网站建设投标评分标准服务器512m内存做网站

回顾在文章《朴素贝叶斯》中&#xff0c;小夕为大家介绍了朴素贝叶斯模型的基本知识&#xff0c;并且得出了朴素贝叶斯是利用联合概率P(x1,x2,x3...xn,y)来确定某个样本为某个类别的概率&#xff0c;进而利用最大后验概率&#xff08;MAP&#xff09;来决策类别。也就是说&…

陕西省建设厅网站安全员报名唐山最新消息今天

导体三极管中参与导电的有两种极性的载流子&#xff0c;所以也称为双极型三极管。本文将介绍另一种三极管&#xff0c;这种三极管只有一种载流子参与导电&#xff0c;所以也称为单极型三极管&#xff0c;因为这种管子是利用电场效应控制电流的&#xff0c;所以也叫场效应三极管…

30分钟网站建设教程视频5000人网站开发

文章目录 一、类的6个默认成员函数二、日期类的实现2.1 运算符重载部分2.2 日期之间的运算2.3 整体代码1.Date.h部分2. Date.cpp部分 三. const成员函数四. 取地址及const取地址操作符重载扩展内容 总结 ヾ(๑╹◡╹)&#xff89;" 人总要为过去的懒惰而付出代价ヾ(๑╹◡…

怎么用ps做网站首页字公共资源交易中心是属于哪个部门

vite的简介 官方文档 刚起步学习&#xff0c;所以我们只需要按照官方文档的入门流程即可。推荐阅读一下官网的为什么使用vite vite目前需要的node版本是18&#xff0c;可以参考上一篇文章的安装nvm&#xff0c;用来进行多版本的node管理。 vite安装与使用 npm create vitela…

网站建设系wordpress手机插件6

本项目为前几天收费帮学妹做的一个项目&#xff0c;Java EE JSP项目&#xff0c;在工作环境中基本使用不到&#xff0c;但是很多学校把这个当作编程入门的项目来做&#xff0c;故分享出本项目供初学者参考。 一、项目描述 基于swing的小区物业管理系统 系统有1权限&#xff1…

网站上做推广方案济宁亿峰科技做网站一年多少费用

基于LabVIEW软件开发的电路板故障诊断系统&#xff0c;涵盖功能测试、性能测试和通讯测试等多个方面。系统集成了多种硬件设备&#xff0c;包括NI PXI-1033机箱、NI PXI-4071数字万用表、NI PXI-4130电源模块、NI PXI-8512 CAN模块等&#xff0c;通过模块化设计实现了对电路板的…