正则表达式实战---爬取多张图片

主要是分析网站图片的html源代码,来决定正则表达式如何写。

完整代码

#使用正则表达式爬取多张图片,亮点在于数据解析
#爬取网站:https://www.bilibili.com/read/cv11323037?from=search
import requests
import re
import os
image_path='image'
if not os.path.exists(image_path):os.makedirs(image_path)url='https://www.bilibili.com/read/cv11323037?from=search'
header={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.101 Safari/537.36 Edg/91.0.864.48'
}
r=requests.get(url=url,headers=header).text
with open('1.html','w',encoding='utf-8') as f:f.write(r)
#使用正则表达式数据解析
#<img data-src="//i0.hdslb.com/bfs/article/45cb84438212c280a5cc22dc6243d4d662a2a535.jpg" width="992" height="700" data-size="226676" class="normal-img" data-index="0" data-type="preview" style="width: 628px; height: 444px;" src="//i0.hdslb.com/bfs/article/45cb84438212c280a5cc22dc6243d4d662a2a535.jpg@785w_555h_progressive.webp">
pattern='<img data-src="(.*?)" width='  
list=re.findall(pattern,r,re.S)
print(list)
#解析完毕
for src in list:image_url='https:'+srcr=requests.get(url=image_url,headers=header).contentimage_name=src.split('/')[-1]with open(os.path.join(image_path,image_name),'wb') as f:f.write(r)print("{}已爬取完毕".format(image_name))

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/333721.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

JS(JavaScript) 使用捕获性分组处理文本模板,最终生成完整字符串

var tmp "An ${a} a ${b} keeps the ${c} away";// obj 是 json 对象 var obj {a:"apple",b:"day",c:"doctor" };/** *descript 声明定义一个函数 tmpl&#xff0c;该函数将文本模板对应的变量替换后返回 * */function tmpl(t,o){/*…

6 日期字符串转日期_Java日期时间API系列6-----Jdk8中java.time包中的新的日期时间API类...

因为Jdk7及以前的日期时间类的不方便使用问题和线程安全问题等问题&#xff0c;2005年&#xff0c;Stephen Colebourne创建了Joda-Time库&#xff0c;作为替代的日期和时间API。Stephen向JCP提交了一个规范&#xff0c;他本人作为规范的领导人&#xff0c;该规范就是JSR 310&am…

第一个JDK 10(18.3)候选版本(内部版本43)展示了新的版本控制方案

Mark Reinhold的帖子“ JDK 10&#xff1a;First Release Candidate ”宣布“在build 43中没有未解决的P1错误”&#xff0c;并将Build 43命名为最初的JDK 10 Release Candidate 。 Reinhold帖子还指向“ JDK 10 Early Access Builds ”页面&#xff0c;该页面包含发行说明的链…

安装Pytorch如何选择CUDA的版本

安装Pytorch时CUDA的选择Nvidia CUDA查看CUDA版本方法查看CUDA的驱动API版本查看CUDA的运行API版本查看官方CUDA的运行API版本方法1方法2查看Anaconda里cudatoolkit包版本CUDA是一个并行计算平台和编程模型&#xff0c;能够使得使用GPU进行通用计算变得简单和优雅。Nvidia官方提…

MySQL的通配符

% 表示匹配任意数量&#xff08;包含 0 个&#xff09;的任意字符&#xff0c;跟 like 配合使用_ 下划线表示匹配任意 1 字符

db2 springboot 整合_[SpringBoot]快速配置多数据源(整合MyBatis)

前言由于业务需求&#xff0c;需要同时在SpringBoot中配置两套数据源(连接两个数据库)&#xff0c;要求能做到service层在调用各数据库表的mapper时能够自动切换数据源&#xff0c;也就是mapper自动访问正确的数据库。本文内容&#xff1a;在SpringbootMybatis项目的基础上&…

pytorch使用GPU炼丹笔记

如何使用GPU训练/测试模型使用单GPU设置设备将数据转换成CUDA张量将模型参数转换成CUDA张量使用指定GPU1.使用CUDA_VISIBLE_DEVICES。1.1 直接在终端或shell脚本中设定&#xff1a;1.2 python代码中设定&#xff1a;2. 使用函数 set_device使用多GPUDP方法DDP方法需要先初始化数…

java解决错误经验_在Java错误进入生产之前的新处理方式

java解决错误经验我们如何认识到解决预生产错误的旧方法还不够&#xff0c;以及我们如何能够改变它 第一次尝试就没有完美的代码&#xff0c;我们所有人都可以证明我们已经通过艰苦的努力学习了。 不管我们使用多少测试周期&#xff0c;代码审查或工具&#xff0c;总有至少一个…

vim 寄存器中的 ^@,^M,^J

首先&#xff0c;ASCII 码表示的字符不都是可打印字符&#xff08;可显示字符&#xff09;&#xff0c;意味着&#xff0c;其中的控制字符本不是对应某个字形的&#xff0c;所以本没有办法看到他们。那么如果万一某个文件中出现了这些怎么办捏&#xff1f;&#xff1f;这里我们…

2019怎么保存低版本_CAD发给客户没字体怎么办?快速打包外部参照、字体、打印样式...

CAD发给客户没字体怎么办&#xff1f;快速打包DWG外部参照、字体、图片、打印样式&#xff01;有没有遇见过这样的情况&#xff1a;图纸发给客户&#xff0c;外部参照的文件没有一起打包发出去&#xff0c;被老板和客户臭骂一顿。图纸发给审图&#xff0c;没有字体&#xff0c;…

Python正则表达式笔记

正则表达式作用函数函数参数查找函数re.findall()re.search()re.match()re.finditer()re.compile()函数替换函数re.sub(pattern,repl,string,count0,flags0)re.subn()分割函数re.split()模式串字符字符类别表达(匹配单个字符)\d\D\s\S\w\W[a-z][^a-z].多次匹配字符*&#xff1f…

CentOS Linux 下的 vim 无法使用系统剪贴板,怎么解决呢?

文章目录查看系统当前的 vim 是否支持剪贴板安装 gvim 来支持系统剪贴板gvim 和 vim 的区别SSH 连接远程主机遇到的问题查看系统当前的 vim 是否支持剪贴板 首先查看下系统的 vim 是否支持系统剪贴板&#xff0c;在命令终端输入如下命令&#xff1a; [roothtlwk0001host test…

jwt令牌_jwt-cli:用于解码JSON Web令牌(JWT令牌)的Shell库

jwt令牌当我开始经常需要解码JSON Web令牌时&#xff0c;我感到迫切需要编写允许我快速进行操作的程序。 有很多不错的选项&#xff0c;例如jwt.io &#xff0c;但是一旦您需要执行此操作&#xff0c;它通常就会变得笨拙。 并且&#xff0c;如果您需要处理多个令牌或进一步处理…

日历对象导哪个包_java.util的的Date类和Calendar类

Datejava.util.Date类的对象用来表示时间和日期&#xff0c;用得最多的是获取系统当前日期和时间&#xff0c;精确到毫秒。Java中有两个Date类&#xff0c;还有一个是java.sql.Date&#xff0c;这个类一般不用&#xff0c;即使在数据库中也不推荐使用。写代码时注意导入的包一定…

Debian Linux 的 vim 如何使用系统剪贴板

以 ubuntu 为例&#xff0c;ubuntu 默认是没有 vim 的&#xff0c;需要自己安装一下&#xff1a; 更新源&#xff1a; apt-get update安装 vim &#xff1a; apt-get install vim此时&#xff0c;系统不支持剪切板&#xff0c;我们使用命令 vim --version|grep clipboard 查…

Python中replace()函数

replace()函数 功能&#xff1a;类似正则表达式的sub()函数&#xff0c;使用新的字符串替换主串中的内容。 函数需要通过字符串来调用,replace(old, new, max)函数参数依次为&#xff1a; old表示主串中要被替换的字符串。new表示新的字符串。max表示替换次数&#xff0c;默…

lombok和maven_Lombok,AutoValue和Immutables,或如何编写更少,更好的代码返回

lombok和maven在上一篇有关Lombok库的文章中 &#xff0c;我描述了一个库&#xff0c;该库有助于处理Java中的样板代码&#xff08; 是的&#xff0c;我知道这些问题已经在Kotlin中解决了 &#xff0c;但这是现实生活&#xff0c;我们不能一味地坐下来&#xff0c;一旦出现较新…

上传文件显示进度条_文件上传带进度条进阶-断点续传

说明 1. 把文件按大小1M分割成N份 2. 每次上传时&#xff0c;告诉后台大文件的md5、当前第几份&#xff08;从0开始&#xff09;、总共几份 3. 并行上传&#xff0c;前端同时开启5个请求进行传输增加速度 4. 上传失败或出错后&#xff0c;继续上传下一份&#xff0c;把出错的份…

Unix 下的 vim 如何使用系统剪贴板

在 Unix 环境下&#xff0c;" 寄存器需要 xterm-clipboard feature 的 VIM 软件才能使用&#xff0c;具有这个 feature 的 VIM 可以安装 vim-gtk&#xff08;包含gvim和vim&#xff09;&#xff0c;使用 gvim 可以正常调用 " 寄存器。

python中关键字global的简单理解

python用global关键字来标识函数里或类里的全局变量&#xff0c;下面以例子来看看global关键字的作用。 未使用global关键字 a10 #全局变量 def sum(x):a2 #局部变量xa*xreturn x xsum(3) print("a:",a) #10 输出的是全局变量a10 print("x:",x) #6使用…