中车网站建设的优缺点酒店网站建设的构思

web/2025/9/27 10:13:19/文章来源:
中车网站建设的优缺点,酒店网站建设的构思,湘潭网站建设方案表格,h5制作平台官网免费一、说明 本周我不得不为客户抓取一个网站。我意识到我做得如此自然和迅速#xff0c;分享它会很有用#xff0c;这样你也可以掌握这门艺术。【免责声明#xff1a;本文展示了我的抓取做法#xff0c;如果您有更多相关做法请在评论中分享】 二、计划策略 2.1 策划 确定您… 一、说明 本周我不得不为客户抓取一个网站。我意识到我做得如此自然和迅速分享它会很有用这样你也可以掌握这门艺术。【免责声明本文展示了我的抓取做法如果您有更多相关做法请在评论中分享】 二、计划策略 2.1 策划 确定您的目标一个简单的 html 网站在 Python 中设计抓取方案 跑起代码让魔术运转 您需要多少时间来抓取网站从业者需要~10分钟为一个简单的html网站准备Python脚本。 2.2 第一部分找到你的目标一个网站 就我而言我需要从 SWIFT 代码或法国 BIC 代码中收集银行名称。该网站 http://bank-code.net/country/FRANCE-%28FR%29.html 有一个4000 SWIFT代码的列表以及相关的银行名称。问题是它们每页仅显示 15 个结果。浏览所有页面并一次复制粘贴 15 个结果不是一种选择。刮擦在这项任务中派上了用场。 首先使用Chrome“检查”选项来确定您需要获取的html部分。将鼠标移动到检查窗口中的不同项目上右侧然后跟踪代码突出显示的网站部分左侧。选择项目后在检查窗口中使用“复制/复制元素”并将 html 代码粘贴到 python 编码工具中。 右侧是谷歌浏览器的“检查窗口”您在使用右键单击/检查时获得 就我而言具有 15 个 SWIFT 代码的所需项目是一个“表” table classtable table-hover table-bordered idtableID stylemargin-bottom: 10px; /table 2.3 第二部分在 Python 中设计抓取方案 ascrape第一页 import requests url http://bank-code.net/country/FRANCE-%28FR%29/ page requests.get(url) 就是这样3行代码和Python已经收到了网页。现在您需要正确解析html并检索所需的项目。  记住所需的 html table classtable table-hover table-bordered idtableID stylemargin-bottom: 10px; /table 它是一个“table”元素id为“tableID”。它有一个id属性的事实很好因为这个网页上没有其他html元素可以有这个id。这意味着如果我在 html 中查找此 id除了所需的元素之外我找不到任何其他内容。它节省了时间。 让我们在 Python 中正确地做到这一点 import bs4 soup bs4.BeautifulSoup(page.content, lxml) table soup.find(nametable, attrs{id:tableID}) 所以现在我们得到了所需的 html 元素。但是我们仍然需要获取 html 中的 SWIFT 代码然后将其存储在 Python 中。我选择把它存放在熊猫里。数据帧对象但只有一个列表列表也可以解决。 为此请返回Chrome检查窗口分析html树的结构并注意您必须转到哪个元素。就我而言所需的数据位于“tbody”元素中。每个银行及其SWIFT代码都包含在一个“tr”元素中每个“tr”元素有多个“td”元素。“td”元素包含我正在寻找的数据。 html 树可以描述如下table tbody tr td 我在一行中做到了如下所示 result pd.DataFrame([[td.text for td in row.findAll(td)] for row in table.tbody.findAll(tr)])b 准备自动化 现在我们已经抓取了第一个网页我们需要考虑如何抓取我们尚未看到的新网页。我这样做的方法是复制人类行为存储一页的结果然后转到下一页。现在让我们专注于下一个网页。 在页面底部有一个菜单允许您进入 swift 代码表的特定页面。让我们检查检查器窗口中的“下一页”按钮。 “”符号将引导我们进入下一页 这给出了以下 html 元素 a href//bank-code.net/country/FRANCE-%28FR%29/15 data-ci-pagination-page2 relnextgt;/a现在在 Python 中获取 url 很简单 http: soup.find(a, attrs{rel:next}).get(href) 我们快到了。 到目前为止我们已经 - 开发了一页表格的抓取 - 确定了下一页 的 url 链接 我们只需要做一个循环然后运行代码。我建议遵循以下两种最佳实践 1. 登陆新网页时打印出来知道您的代码处于流程的哪个阶段抓取代码可以运行数小时 2.定期保存结果避免在出现错误时丢失所有抓取的内容 只要我不知道何时停止抓取我就会使用惯用的“while True”语法循环。我在每一步打印出计数器值。而且我也在每一步将结果保存在csv文件中。这实际上可能会浪费时间例如更好的方法是每 10 或 20 步存储一次数据。但我追求快速实施。 三、完整代码 代码是这样的 import os, bs4, requests import pandas as pdPATH os.path.join(C:\\,Users,xxx,Documents,py) # you need to change to your local path res pd.DataFrame() url http://bank-code.net/country/FRANCE-%28FR%29/ counter 0def table_to_df(table): return pd.DataFrame([[td.text for td in row.findAll(td)] for row in table.tbody.findAll(tr)])def next_page(soup): return http: soup.find(a, attrs{rel:next}).get(href)while True:print(counter)page requests.get(url)soup bs4.BeautifulSoup(page.content, lxml)table soup.find(nametable, attrs{id:tableID})res res.append(table_to_df(table))res.to_csv(os.path.join(os.path.join(PATH,table.csv)), indexNone, sep;, encodingiso-8859–1)url next_page(soup)counter 1 完整的代码只有26行可以在这里找到https://github.com/FelixChop/MediumArticles/blob/master/Scraping_SWIFT_codes_Bank_names.py

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/81161.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

保定自助建站网页设计布局有哪几种方法

前言 LM358双运放有几十年的历史了吧?通用运放,很常用,搞电路的避免不了接触运放,怎么选择运放,是工程师关心的问题吧? 从本文开始,将陆续发一些常用的运放,大家选型可以参考&#…

行政部建设公司网站点匠网站开发流程

Maven内网开发使用离线仓库 离线或者内网环境开发与外网不通,中央仓库连不上,使用 Maven 管理项目会遇到很多问题。 比如:依赖包缺失,内网的Nexus私服的包老旧,很久没有维护,项目无法运行打包,…

河间网站制作内部链接网站大全

环境:CentOS 7 目的:安装docker、启动服务 依据: 🔗官方文档 一、前提 1、查看内核版本 uname -rTip:docker需要内核版本3.10以上。所以CentOS 7是最低要求 2、更新软件包 耗时较长 yum update -y3、安装yum…

宜宾建设教育培训中心网站财务软件排行榜前十名

C实现数组中是否存在递增三元组的巧妙方法 在解决数组问题时,尤其是涉及到子序列的查找,我们需要考虑时间复杂度和空间复杂度,以确保算法的效率。我们将介绍一种高效的解决方案,详细讲解其思路和实现。 问题描述 给你一个整数数…

苏州区建设局网站首页wordpress调用分类目录

proxy只是一个变量名,翻译过来是“代理”的意思 当你使用 const { proxy } getCurrentInstance() 这句代码时,它执行了以下步骤: getCurrentInstance() 是 Vue 3 中的一个函数,用于获取当前正在执行的 Vue 组件实例的上下文信息…

企业网站前台模板服务器 打开网站iis7

(首发地址:学习日记 https://www.learndiary.com/2024/05/grub-xorg/) 朋友们,大家好!我是来自淘宝网学习日记小店的 Linux 服务者 learndiary。今天,我将和大家分享一个关于AMD Ryzen 9 7950X3D 16核 CPU …

友情链接网站被降权wordpress升级缓存

目录 一、第三方库 1、mysql-connector-python 1-1、由来 1-2、优缺点 1-2-1、优点 1-2-1-1、官方支持 1-2-1-2、纯Python实现 1-2-1-3、全面支持 1-2-1-4、兼容性 1-2-1-5、易于使用 1-2-2、缺点 1-2-2-1、性能 1-2-2-2、安装 1-2-2-3、社区支持 1-2-2-4、扩…

织梦的手机端网站潍坊网站建设策划

功能: 1、即时生成网站内容摘要; 2、支持提问并从页面获得直接回答; 3、通过关键词获取相关信息; 4、可以与 PDF 对话,方便理解大型文档、学习或审阅报告; 5、与 YouTube 视频交互问答(测试…

东莞企业建设网站官网有限公司很大气的网站 营销

在Data Geekery ,我们喜欢Java。 而且,由于我们真的很喜欢jOOQ的流畅的API和查询DSL ,我们对Java 8将为我们的生态系统带来什么感到非常兴奋。 Java 8星期五 每个星期五,我们都会向您展示一些不错的教程风格的Java 8新功能&#…

大鼠引物在线设计网站用第三方做网站

导读:今天对象回家,输入电子门锁密码怎么也打不开,指示灯也不亮,前段时间也时不时的能按,我就预感到电池没电了,那么我是如何进入家门的呢? 一般这种电子门锁可以输入密码,也可以使用机械钥匙。说实话,这钥匙在哪我压根没见过,租的房子,房东都不知道,只能输入密码才…

建设南大街小学网站网站数字化建设

转载自 最通俗易懂的乐观锁与悲观锁原理及实现 一、乐观锁 总是认为不会产生并发问题,每次去取数据的时候总认为不会有其他线程对数据进行修改,因此不会上锁,但是在更新时会判断其他线程在这之前有没有对数据进行修改,一般会使用…

给公司做门户网站 可以用凡客吗做任务佣金的网站

主服务器数据库的每次操作都会记录在其二进制文件mysql-bin.xxx(该文件可以在mysql目录下的data目录中看到)中,从服务器的I/O线程使用专用账号登录到主服务器中读取该二进制文件,并将文件内容写入到自己本地的中继日志relay-log文件中,然后从…

网站建设开发方式包括哪些做一个互联网平台需要多少钱

🚀 本文选自专栏:AI领域专栏 从基础到实践,深入了解算法、案例和最新趋势。无论你是初学者还是经验丰富的数据科学家,通过案例和项目实践,掌握核心概念和实用技能。每篇案例都包含代码实例,详细讲解供大家学习。 📌📌📌在这个漫长的过程,中途遇到了不少问题,但是…

备案要关闭网站吗最有前景的代理产品

本文结构: a、简介 b、安装 c、用法举例 a、Vundle是一个Vim插件管理器,它极大地简化了Vim插件的安装、更新和卸载过程。Vundle通过简化Vim插件的管理过程,帮助用户更高效地定制他们的Vim编辑环境。 b、安装Vundle Vundle的安装通常是通…

sql可以做网站吗单页网站建设平台哪个好

1、void *a是什么意思 答&#xff1a;泛型指针&#xff0c;但不规定其类型(就是地址确定&#xff0c;但数据长度不确定)在动态分配内存时&#xff0c;malloc的返回值就是该类型&#xff0c;方便用户进行强制转换。 2、VS怎么一键规范格式 for(i0;i<10;i)enter后&#xff0c;…

市网站建设湛江专业建网站哪家好

Runner 介绍 概述 Runner是用来批量调用collection里某个文件夹里的全部接口的。 (注意&#xff0c;我说的是文件夹内所有接口,可以是一级文件夹&#xff0c;也可是二级文件夹) 示意图 打开runner&#xff0c;如图所示 说明 历史记录 历史执行记录 2.导入 导入别人或之…

鄂州网站推广优化技巧列举网络营销的特点

什么是自动垃圾回收&#xff1f;自动垃圾回收是一种在堆内存中找出哪些对象在被使用&#xff0c;还有哪些对象没被使用&#xff0c;并且将后者删掉的机制。所谓使用中的对象(已引用对象)&#xff0c;指的是程序中有指针指向的对象&#xff1b;而未使用中的对象(未引用对象)&…

游戏介绍网站模板下载地址市住建设局网站

目录 最长递增子序列 摆动序列 最长递增子序列的个数 最长数对链 最长定差子序列 最长的斐波那契子序列的长度 最长等差数列 等差数列划分 II - 子序列 最长递增子序列 300. 最长递增子序列 子数组是连续的&#xff0c;子序列可以不连续&#xff0c;那么就要去[0, i - 1]…

产品通过网站做营销灰大设计导航

JY-10系列集成电路电压继电器 JY-11A集成电路电压继电器 JY-12A集成电路电压继电器 JY-11C集成电路电压继电器 JY-11D集成电路电压继电器 JY-12B集成电路电压继电器 JY-12C集成电路电压继电器 JY-12D集成电路电压继电器 1概述 JY系列集成电路电压继电器用于发电机、变…

网站后台模板 php网站转化分析

那今天呢&#xff1f;我们来介绍一下sdp协议&#xff0c;那实际上呢&#xff1f;sdp协议非常的简单。我们如果拿到一个stp的文档去看的话&#xff0c;那你要分阅里边的所有的内容会觉得很枯燥&#xff0c;但实际上呢&#xff0c;如果我们按照这张图所展示的结构去看stp的话。你…