国际型网站建设战略网页游戏开服表

news/2025/9/30 7:08:27/文章来源:
国际型网站建设,战略网页游戏开服表,优化措施二十条,商务网站建设实训心得目录 一、网络爬虫中的正则表达式和re模块#xff08;一#xff09;数据提取的精确性#xff08;二#xff09;处理复杂的文本结构#xff08;三#xff09;提高数据处理效率 二、正则表达式的内涵#xff08;一#xff09;、常用元字符#xff08;二#xff09;、量… 目录 一、网络爬虫中的正则表达式和re模块一数据提取的精确性二处理复杂的文本结构三提高数据处理效率 二、正则表达式的内涵一、常用元字符二、量词控制前面的元字符出现的次数三、贪婪匹配和惰性匹配四、Python网络爬虫中的常用正则表达式五、Python中的re模块 三、典型案例一. **提取网页中的所有链接**二. **验证用户输入的电子邮件地址是否合法**三. **从文本中提取电话号码** 在 Python 中re模块提供了对正则表达式操作的支持包括 匹配、搜索、替换、分割等功能使得在网络爬虫中方便地运用正则表达式来处理抓取到的数据。 一、网络爬虫中的正则表达式和re模块 一数据提取的精确性 定位特定数据 在网页的HTML或其他文本数据中目标数据往往混杂在大量无关信息中。例如在一个电影网站上要提取某部电影的评分评分数据可能被包裹在特定的HTML标签内。正则表达式可以精确地定位这些数据。比如使用span classrating_num(.*?)/span这个正则表达式可以在HTML中找到电影评分所在的span标签并提取其中的评分数值。 过滤无关信息 网络爬虫抓取的网页内容包含大量不需要的信息如导航栏、广告、版权声明等。正则表达式可以帮助过滤掉这些无关数据。例如要从一个包含大量新闻文章的网页中提取正文内容通过分析网页结构发现正文内容在div classarticle - content标签内可以使用正则表达式div classarticle - content(.*?)/div来提取正文过滤掉其他非正文的HTML元素。 二处理复杂的文本结构 应对多样化的网页结构 不同网站的网页结构各异甚至同一网站的不同页面可能也有不同的结构。正则表达式具有很强的灵活性能够适应这种多样性。例如在一个电商网站上商品价格可能在不同页面以不同的HTML格式呈现。有的可能是span idprice19.99/span有的可能是div classproduct - price19.99/div。通过编写灵活的正则表达式如(span|div).*?(idprice|classproduct - price)(.*?)/(span|div)可以适应这种结构变化来提取价格信息。 处理嵌套结构 网页中的HTML标签常常存在嵌套关系正则表达式可以处理一定程度的嵌套数据提取。例如要从一个包含评论列表的网页中提取每条评论及其回复。评论可能在div classcomment标签内回复在div classreply标签内且嵌套在评论标签下。通过合适的正则表达式可以逐层提取这些嵌套的数据。 三提高数据处理效率 快速匹配 正则表达式引擎经过优化能够在大量文本中快速找到匹配的模式。在处理大型网页或大量网页时这种快速匹配能力尤为重要。例如在爬取一个包含数千条产品信息的电商网站时使用正则表达式可以快速扫描每个产品页面提取诸如产品名称、价格、销量等关键信息而不需要逐个字符去查找和判断。 减少代码复杂度 相较于手动编写复杂的字符串处理逻辑使用正则表达式可以用简洁的模式表达复杂的匹配规则从而减少代码量和复杂度。比如要从一个文本中提取所有的电话号码手动编写代码可能需要多层循环和条件判断。而使用正则表达式d{3}-d{4}-d{4}假设电话号码格式为XXX - XXXX - XXXX可以用很少的代码实现相同的功能。 在Python中re模块提供了对正则表达式操作的支持包括匹配、搜索、替换、分割等功能使得在网络爬虫中方便地运用正则表达式来处理抓取到的数据。 二、正则表达式的内涵 在线正则表达式工具网站在线正则表达式测试 正则表达式Regular Expression是一种用于描述、匹配和操作文本字符串的强大工具。它由一系列字符和操作符组成可以定义一个搜索模式用于在文本中查找、替换或验证符合特定模式的字符串。正则表达式在文本处理、数据验证、搜索引擎、编程语言等多个领域都有广泛应用。 一、常用元字符 普通字符 普通字符本身就匹配自身例如a匹配字符a5匹配数字5。 特殊元字符 .匹配除换行符以外的任意字符。w匹配字母或数字或下划线。s匹配任意的空白符。d匹配数字。n匹配一个换行符。t匹配一个制表符。^匹配字符串的开始。$匹配字符串的结尾。W匹配非字母或数字或下划线。D匹配非数字。S匹配非空白符。a|b匹配字符a或字符b。( )匹配括号内的表达式也表示一个组。[... ]匹配字符组中的字符。[^... ]匹配除了字符组中字符的所有字符。 二、量词控制前面的元字符出现的次数 *重复零次或更多次。重复一次或更多次。?重复零次或一次。{n}重复n次。{n,}重复n次或更多次。{n,m}重复n到m次。 三、贪婪匹配和惰性匹配 贪婪匹配.* 尽可能多地匹配字符。例如对于字符串abcde模式.*会匹配整个字符串。 惰性匹配.*? 尽可能少地匹配字符。例如对于字符串abcde模式.*?会匹配空字符串。 四、Python网络爬虫中的常用正则表达式 匹配URL 例如http[s]?://(?:[a-zA-Z]|[0-9]|[$-_.]|[!*\\(\\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))可以匹配大多数HTTP和HTTPS的URL。 匹配电子邮件地址 例如^[a-zA-Z0-9_.-][a-zA-Z0-9-]\\.[a-zA-Z0-9-.]$可以匹配标准的电子邮件地址。 匹配IP地址 例如^(?:(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\\.){3}(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)$可以匹配IPv4地址。 五、Python中的re模块 re.findall(pattern, string) 在字符串string中查找所有符合pattern的子串并返回一个列表。例如 import re lst re.findall(m, mai le fen, mai ni mei!) print(lst) # [m, m, m]re.search(pattern, string) 在字符串string中查找第一个符合pattern的子串如果找到则返回一个匹配对象否则返回None。例如 ret re.search(d, 5点之前你要给我5000万).group() print(ret) # 5re.match(pattern, string) 从字符串的开头开始匹配如果开头不符合pattern则返回None。例如 ret re.match(a, abc).group() print(ret) # are.finditer(pattern, string) 在字符串string中查找所有符合pattern的子串并返回一个迭代器。例如 it re.finditer(m, mai le fen, mai ni mei!) for match in it:print(match.group())三、典型案例 一. 提取网页中的所有链接 使用re.findall和匹配URL的正则表达式可以从网页源代码中提取所有链接。例如 import re import requestsurl https://www.example.com response requests.get(url) links re.findall(http[s]?://(?:[a-zA-Z]|[0-9]|[$-_.]|[!*\\(\\),]|(?:%[0-9a-fA-F][0-9a-fA-F])), response.text) print(links)二. 验证用户输入的电子邮件地址是否合法 使用匹配电子邮件地址的正则表达式可以验证用户输入。例如 import reemail input(请输入你的电子邮件地址) if re.match(^[a-zA-Z0-9_.-][a-zA-Z0-9-]\\.[a-zA-Z0-9-.]$, email):print(电子邮件地址合法) else:print(电子邮件地址不合法)三. 从文本中提取电话号码 使用合适的正则表达式可以从文本中提取电话号码。例如 import retext 我的电话号码是13812345678记得联系我。 phone_numbers re.findall(1[3-9]d{9}, text) print(phone_numbers) # [13812345678]更多爬虫文章见专栏 Python网络爬虫

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/922562.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

购物网站开发的需求分析网站建设栏目添加

一、调用位置 在理解this的绑定过程之前,首先要理解调用位置:调用位置就是函数在代码中被调用的位置(而不是申明的位置)。只有仔细分析调用位置才能回答这个问题:这个this到底引用的是什么? function foo…

游戏平台网站开发宁波高端网站建设

作者 | 阿丸笔记责编 | 徐威龙封图| CSDN 下载于视觉中国在网上看过很多HBaes架构相关的文章,内容深浅不一,直到发现了一篇MapR官网的文章,写得实在太生动了。https://mapr.com/blog/in-depth-look-hbase-architecture/#.VdMxvWSqqko&#xf…

小网站搜什么关键词好网页制作格式

人工神经网络文献综述 摘要 人工神经网络(Artificial Neural Networks, ANNs)是由多个简单的、相互连接的处理单元组成的自适应系统,通过调整这些单元之间的连接强度,ANNs能够实现对复杂数据的建模和预测。本文综述了ANNs的基本…

金融投资网站源码棉花数据检验与加工平台

—————————————————————————————————— 一、函数依赖的推理规则: 1、自反律:若Y⊆X⊆U,则X→Y在R上成立。 2、增广律:若X→Y在R上成立,且Z⊆U,则XZ→YZ在R上也成立。 3、传…

做动画人设有哪些网站可以借鉴邯郸信息网平台

『youcans 的 OpenCV 例程200篇 - 总目录』 【youcans 的 OpenCV 例程200篇】25. 图像的平移 平移是物体位置在水平和垂直方向的移动。 像素点 (x,y) 沿 x 轴平移 dx、沿 y 轴平移 dy,可以由以下公式描述: [x~y~1]MAT[xy1],MAT[10dx01dy001]\begin{bmat…

做网站找那些公司如何在阿里云部署网站

第六部分、数据结构树,树存储结构详解 数据结构的树存储结构,常用于存储逻辑关系为 "一对多" 的数据。 树存储结构中,最常用的还是二叉树,本章就二叉树的存储结构、二叉树的前序、中序、后序以及层次遍历、线索二叉树、…

网站优化人员网站名称和备案不一样

一、问题 先用conda指令创建了python3.10的环境,然后在IDEA或Pycharm里添加Python解释器环境报Cannot set up a python SDK的错误, 二、解决方法 发现在默认创建新环境选择Python版本时只能选择:2.7,3.6,3.7&#xff…

莞城仿做网站竞价代运营

文章目录 ps -axj:查看进程ps -aL:查看线程echo $?:查看最近程序的退出码jobs:查看后台运行的线程组fd 任务号:将后台任务提到前台bg 任务号:将暂停的后台程序重启netstat -nltp:查看服务及监听…

滕州市东方建设工程事务有限公司网站中英繁网站源码

执笔 | 姜 姜 编辑 | 古利特 刚刚站上300亿元新台阶&#xff0c;泸州老窖再次传来喜讯。 <<<左右滑动查看更多>>> 4月28日&#xff0c;四川省庆祝“五一”国际劳动节大会在成都召开。泸州老窖股份有限公司工业4.0项目秘书长赵丙坤、泸州老窖酿酒有限责任公…

成都电子商城网站开发核酸检测收费

作者 | 宋慧出品 | CSDN云计算&#xff08;ID&#xff1a;CSDNcloud&#xff09;关于数据中台的问题&#xff0c;CSDN 在一年前采访了 Gartner 研究总监孙鑫&#xff0c;采访中&#xff0c;孙鑫提到 数据分析将是改变“游戏规则”的技术、企业的中台需要可组装的架构 。经过一年…

兰州最好的网站建设公司呼和浩特百度seo

IDEA刷新项目&#xff0c;报错[ERROR] Malformed \uxxxx encoding. 现象 1.控制台报错 [ERROR] Malformed \uxxxx encoding.2.项目代码大部分爆红 3.Pom文件不爆红 4.IDEA未能构建Dependencies 尝试清除IDEA缓存无效&#xff0c;重新克隆项目无效&#xff0c;更换低版本mav…

Java 与智慧港口:航运调度与物流枢纽数字化

一、引言 港口是全球贸易的重要枢纽,承担着 货物集散、航运调度、物流中转 的关键作用。随着全球化和电商的快速发展,港口面临 货流量暴增、作业效率不足、调度复杂、安全监管难度大 等挑战。智慧港口的目标是:通过…

自己做报名网站教程品牌网站如何做

1&#xff0c;docker简介 docker主要解决了最初软件开发环境配置的困难&#xff0c;完善了虚拟机部署的资源占用多&#xff0c;启动慢等缺点&#xff0c;保证了一致的运行环境&#xff0c;可以更轻松的维护和扩展。docker在linux容器的基础上进行了进一步的封装&#xff0c;提…

解决方案网站深圳市最新出行政策

java编码转换过程我们总是用一个java类文件和用户进行最直接的交互(输入、输出)&#xff0c;这些交互内容包含的文字可能会包含中文。无论这些java类是与数据库交互&#xff0c;还是与前端页面交互&#xff0c;他们的生命周期总是这样的&#xff1a;1、程序员在操作系统上通过编…

购物网站二级店铺mvc学建筑的网站

原文题目 Authentic versus synthetic: An investigation of the influences of study settings and task configurations on search behaviors 摘要 在信息检索和检索研究中,研究者经常收集用户行为数据来预测任务特征,为用户提供个性化信息提供参考。数据采集方法可能会直接…

网站优化哪家好鹤山市城乡住房建设部网站

heap不属于STL容器的组件&#xff0c;属于幕后角色&#xff0c;是priority_queue的助手priority_queue 允许用户以任何次序将任何元素推入容器内&#xff0c;但是取出的时候需要从优先级最高(也就是数值最高)的元素开始取&#xff0c;这种思想是基于heap的函数实现如果使用list…

网络科技公司名字取名大全seo网站推广计划

1,异常是导致程序bug最直接的原因,异常处理可以让程序员决定,出错时以(蓝屏,代码,报错,提示等)处理. 2,异常级别 初级:语法错误:编译不通过 中级:运行错误,调式来解决 高级:逻辑错误,需要经验,难以排查. 举例c#数组越界class Program{static void Main(string[] args){int[] a…

清除“请允许观看视频”通知页面的完整指南

本文详细介绍了如何移除“请允许观看视频”恶意通知页面,包括使用RKill、Malwarebytes、Zemana等专业工具进行完整系统清理的步骤,帮助用户彻底解决浏览器劫持和广告软件问题。移除“请允许观看视频”通知页面 什么是…

千亿芯片公司被股东“抛弃” ,AI芯片第一股前景几何?

微信视频号:sph0RgSyDYV47z6快手号:4874645212抖音号:dy0so323fq2w小红书号:95619019828B站1:UID:3546863642871878B站2:UID: 3546955410049087近日,AI芯片明星企业寒武纪遭遇重要股东减持的消息引发市场广泛关…

网站用户访问统计关注公众号推广2元一个

1.什么是随机试验&#xff08;random trial&#xff09;&#xff1f; 如果一个试验满足试验可以在相同的条件下重复进行、试验所有可能结果明确可知&#xff08;或者是可知这个范围&#xff09;、每一次试验前会出现哪个结果事先并不确定&#xff0c;那么试验称为随机试验。 …