企业网站建设推广含义平台型网站

news/2025/9/28 22:11:45/文章来源:
企业网站建设推广含义,平台型网站,网站建设与网页设计实训报告,做网站的人还能做什么一、python库camelot安装及使用中的一些注意事项 1#xff09;camelot方法有两种解析模式#xff1a;流解析#xff08;stream#xff09;、格子解析#xff08;lattice#xff09;#xff0c;其中格子解析能够保留表格完整的样式#xff0c;对于复杂表格来说要优于流…一、python库camelot安装及使用中的一些注意事项 1camelot方法有两种解析模式流解析stream、格子解析lattice其中格子解析能够保留表格完整的样式对于复杂表格来说要优于流解析模式。同时camelot方法默认格子解析lattice而采用这种解析方式需要安装ghostscript。因此仅通过pip命令安装的camelot代码运行时通常会报错。需要下载ghostscript.exe并安装。安装后经测试并不需要在代码中import ghostscript。 2camelot输出格式如果选择csv格式可能存在中文乱码问题需要用文本编辑器将导出的csv文件编码改为ansi格式。 如果想直接保存为excel格式需要xlwt模块支持pip安装xlwt后tables.export(‘文件名.xls’,f ‘excel’)即可输出为excel格式。 3后来在另外一台电脑上安装camelot库时出现了一个奇葩的问题程序运行报错。反复检查才发现原因。首先是在这台电脑上我是按照印象输入pip install camelot也安装成功。但代码运行错误。经查阅正确命令或者说版本是pip install camelot-py[cv]。 所以我先uninstall前面安装的camelot又重新按照正确的命令安装camelot-py[cv]但代码运行时又提示import xlwt有问题在python库中检查了下xlwt文件是正常的找了半天没找到原因。后来单独卸载xlwt然后重新pip安装xlwt发现xlwt的版本号由0.7变为1.3然后一切就正常了。估计是之前错误安装了camelot的版本导致顺带安装的xlwt版本过低无法兼容python3.6.5。 4camelot开始时一切正常但处理一个pdf文件时突然报错pdfminer.psparser.SyntaxError: Invalid dictionary construct: [/‘Type’, /‘Font’, /‘Subtype’, /‘Type0’, /‘BaseFont’, /bb’, /“ABCDEE\xcb\xce\xcc\xe5’”, /‘Encoding’, /‘Identity-H’, /‘DescendantFonts’, PDFObjRef:11, /‘ToUnicode’, PDFObjRef:19] 经百度找到解决方案修改了pandas和PyPDF2模块的三处源码恢复正常。具体修改内容见python爬虫处理在线预览的pdf文档https://link.csdn.net/?targethttps%3A%2F%2Fwww.cnblogs.com%2FEeyhan%2Farchive%2F2019%2F12%2F30%2F12111371.html 二 、 python库Camelot从pdf抽取表格数据 原文链接https://blog.csdn.net/xc_zhou/article/details/99242995 Camelot: 一个友好的PDF表格数据抽取工具 一个python命令行工具使任何人都能很轻松的从PDF文件中抽取表格数据。 安装 Camelot 安装非常简单! 在安装相关的依赖后可以直接使用pip安装。 $ pip install camelot-py 1 怎样使用Camelot 使用Camelot从PDF文档提取数据非常简单 为什么使用Camelot Camelot允许你通过调整设置项来精确控制数据的提取过程可以根据空白和精度指标来判断坏的表格并丢弃而不必手动检查每一个表格数据是一个panda的dataframe从而可以很方便的集成到ETL和数据分析工作流中可以把数据导出为各种不同的格式比如 CSV、JSON、EXCEL、HTML 首先让我们看一个简单的例子eg.pdf整个文件只有一页这一页中只有一个表格如下 使用以下Python代码就可以提取该PDF文件中的表格 import camelot从PDF文件中提取表格 tables camelot.read_pdf(‘E://eg.pdf’, pages‘1’, flavor‘stream’) 表格信息 print(tables) print(tables[0]) 表格数据 print(tables[0].data) 12345678910 输出结果为 TableList n1 Table shape(4, 4) [[ID, 姓名, 城市, 性别], [1, Alex, Shanghai, M], [2, Bob, Beijing, F], [3, Cook, New York, M]] 123 分析代码camelot.read_pdf()为camelot的从表格中提取数据的函数输入的参数为PDF文件的路径页码pages和表格解析方法有stream和lattice两个方法。对于表格解析方法默认的方法为lattice而stream方法默认会把整个PDF页面当做一个表格来解析如果需要指定解析页面中的区域可以使用table_area这个参数。 camelot模块的便捷之处还在于它提供了将提取后的表格数据直接转化为pandascsvJSONhtml的函数如tables[0].dftables[0].to_csv()函数等。我们以输出csv文件为例 import camelot从PDF文件中提取表格 tables camelot.read_pdf(‘E://eg.pdf’, pages‘1’, flavor‘stream’) 将表格数据转化为csv文件 tables[0].to_csv(‘E://eg.csv’) 1234567 得到的csv文件如下 例2 在例2中我们将提取PDF页面中的某一区域的表格的数据。PDF文件的页面部分如下 为了提取整个页面中唯一的表格我们需要定位表格所在的位置。PDF文件的坐标系统与图片不一样它以左下角的顶点为原点向右为x轴向上为y轴可以通过以下Python代码输出整个页面的文字的坐标情况 import camelot从PDF中提取表格 tables camelot.read_pdf(‘G://Statistics-Fundamentals-Succinctly.pdf’, pages‘53’, flavor‘stream’) 绘制PDF文档的坐标定位表格所在的位置 tables[0].plot(‘text’) 12345678 输出结果为 UserWarning: No tables found on page-53 [stream.py:292] 1 整个代码没有找到表格这是因为stream方法默认将整个PDF页面当作表格因此就没有找到表格。但是绘制的页面坐标的图像如下 仔细对比之前的PDF页面我们不难发现表格对应的区域的左上角坐标为50,620右下角的坐标为500,540。我们在read_pdf()函数中加入table_area参数完整的Python代码如下 import camelot识别指定区域中的表格数据 tables camelot.read_pdf(‘G://Statistics-Fundamentals-Succinctly.pdf’, pages‘53’, flavor‘stream’, table_area[‘50,620,500,540’]) 绘制PDF文档的坐标定位表格所在的位置 table_df tables[0].df print(type(table_df)) print(table_df.head(n6)) 1234567891011 输出的结果为 class pandas.core.frame.DataFrame0 1 2 3 0 Student Pre-test score Post-test score Difference 1 1 70 73 3 2 2 64 65 1 3 3 69 63 -6 4 … … … … 5 34 82 88 6 12345678 总结 在具体识别PDF页面中的表格时除了指定区域这个参数还有上下标、单元格合并等参数详细地使用方法可参考camelot官方文档网址https://camelot-py.readthedocs.io/en/master/ 参考https://www.php.cn/python-tutorials-412223.html https://mp.weixin.qq.com/s?__bizMjM5NzU0MzU0Nwmid2651380263idx1sn514485e8c4fe820834bacbcccfbb4ae9chksmbd2411338a539825977b2ab6d6e7a1fd86dfe0c85ba54a50d1472c309f7b1efdc164d1da4f96mpshare1scene23srcid0520POo6Bt0M0FUTbhnwNptJ#rd

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/921188.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

做设计的地图网站网站建设费用申请

作者|秦承刚,吴启翾,喻望,杨伟 编辑|张婵 出处丨高效开发运维 5 月 2 日,谷歌发布了一款新型的沙箱容器运行时 gVisor,号称能够为容器提供更安全的隔离,同时比 VM 更轻量。容器基于共…

深入解析:高性能分布式对象存储RustFS

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

一款在线免费 PDF AI 工具平台,PDF 拆分,合并,加水印,PDF与Word、Excel、PPT、图片、TXT、HTML、Markdown互转的在线AI工具

该网页是一款在线免费 PDF AI 工具平台,核心功能围绕 PDF 处理展开,同时涵盖多格式文件与 PDF 的相互转换,具体信息如下: 一、核心功能板块 (一)PDF 处理功能PDF 拆分:可将单个 PDF 文件拆分为多个独立的 PDF 文…

计算机核心课

别再瞎学了!计算机科学10门核心课,才是真“硬通货” 身边总有计算机专业的同学陷入“无效努力”:刷了300道算法题,面试时被问“红黑树的插入逻辑”却答不上;跟风学了Python爬虫、Vue框架,做项目时连“内存溢出怎…

微慕wordpress河南新站关键词排名优化外包

目录 引子 RDB RDB的优缺点 小节一下 引子 不论把Redis作为数据库还是缓存来使用,他肯定有数据需要持久化,这里我们就来聊聊两种持久化机制。这两种机制,其实是 快照 与 日志 的形式。快照:就是当前数据的备份,我可以拷贝到磁…

【SimpleFOC】vofa+监控电机数据

使用vofa+,以及其“数据引擎”功能,可以将串口接收到的数据进行可视化,方便电机的调试:如角度、速度、以及电流采样等相关数值。 一、VOFA+下载 VOFA+官网下载地址 二、VOFA+配置三、STM32代码添加语句 举个例子 p…

ubuntu虚拟机磁盘扩展

1. 确认磁盘空间已扩展, 通常虚拟机磁盘为sdasudo fdisk -l /dev/sda 2. 扩展分区(如果需要) 如果扩展的空间未分配到分区,需要先扩展分区:sudo parted /dev/sda (parted) resizepart 3 # 假设LVM在分区3 (parte…

哪个网站做清洁的活多制作游戏的app

下面是新浪微博上曾经很火的一张图: 一时间网上一片求救声,急问这个怎么破。其实这段代码很简单,index数组就是arr数组的下标,index[0]2 对应 arr[2]1,index[1]0 对应 arr[0]8,index[2]3 对应 arr[3]0&…

开网站开发公司开发软件的流程

文章目录题目描述思路 & 代码题目描述 比 leetcode 136要难点注意:空间复杂度要求O(1),否则用哈希表直接秒杀啦。昨天的笔试,还有刷的面经都有这道题。。。今天赶紧补补 思路 & 代码 相对于 leetcode 136,这边多了个分…

网站建设的风险管理网站做百度推广吗

操作符的分类 • 算数操作符 &#xff1a; 、 - 、 * 、 / 、 % • 移位操作符 &#xff1a; << 、 >> • 位操作符 &#xff1a; & 、 | 、 ^ • 赋值操作符 &#xff1a; 、 、 - 、 * 、 / 、 % 、 << 、 >> 、 & 、 |…

数学知识

exgcd(拓展欧几里得算法) exgcd,常用于解决形如 \(ax+by=gcd(a,b)\) 的方程。 容易知道,\(gcd(a,b)=gcd(b,a%b)\) 所以我们可以先解出来方程 \(bx+(a%b)y=gcd(b,a%b)\) 所以这个方程如何解呢? 考虑参考辗转相除法…

Whispers from the Star:Anuttacon推出的以AI智能体语音交互为核心的太空生存游戏 - 详解

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

网站开发语言占有率wordpress简体中文下载

来源&#xff1a;亿欧网 作者&#xff1a;倪弋摘要&#xff1a;人工智能生成物是否具有知识产权&#xff1f;人工智能可以替代司法者吗&#xff1f;人工智能侵权责任如何认定&#xff1f;人工智能的出现会给现行的法律制度带来了不少挑战&#xff0c;只有在法律研究上未雨绸缪…

从0到1搭建高隐蔽性C2基础设施

前言 在红蓝对抗中,C2(Command&Control)服务器是红队的"神经中枢"————其稳定性决定行动能否持续,隐蔽性决定能否必避开蓝队溯源。多数红队行动暴露,根源在于C3存在明显指纹(如默认50050端口、CS特征…

CDBurnerXP刻录软件

CDBurnerXP刻录软件✅ 免费第三方小工具CDBurnerXP免费、简洁,支持数据盘、音乐 CD、ISO 镜像刻录。中文界面,适合普通用户。官网:https://cdburnerxp.se/

简单大气网站欣赏深圳市建设工程资料网站

开始学习了,希望我可以尽快成功上岸! 一、回溯理论基础 什么是回溯法?回溯法也可以叫做回溯搜索法,它是一种搜索的方式。 回溯是递归的副产品,只要有递归就会有回溯。 回溯法的效率回溯法的本质是穷举,穷举所有可能,然后找出我们想要的答案。如果想让回溯法高效一些,可…

湖南地税局官网站水利建设基金长沙全网覆盖的网络推广

1、前言 在大型企业项目中&#xff0c;系统架构复杂多变&#xff0c;一个项目根本无法支撑起所有业务。为了提高项目扩展性、灵活性、重用性&#xff0c;封装性&#xff0c;将项目分为多个Module是非常必要的。 这里就不说IDEA如何安装了&#xff0c;安装好IDEA后需要修改maven…

网站标题怎么做网站建设工作要点

01什么是判断题&#xff1f;判断是关于对象和它属性有所肯定或者否定的思维形式。在研究数学中&#xff0c;经常要对现实世界的空间形式和数量关系&#xff0c;作出肯定或者否定的回答&#xff0c;因而要大量使用判断&#xff0c;并把一些正确的判断作为进一步研究问题的依据。…

普定县建设局网站wordpress 添加广告

一. 简述静态网页和动态网页的区别。 请求响应信息&#xff0c;发给客户端进行处理&#xff0c;由浏览器进行解析&#xff0c;显示的页面称为静态页面。处理文件类型如.html、jpg、.gif、.mp4、.swf、.avi、.wmv、.flv等 请求响应信息&#xff0c;发给事务端进行处理&#xff0…

软工9.27

今天没学什么