【爬虫】多线程爬取图片

多线程爬虫

  • 多线程爬虫概述
    • 1.1 多线程的优势
    • 1.2 多线程的挑战
  • 设计多线程爬虫
    • 1.1 项目设计
    • 1.2 项目流程
    • 1.3注意事项
  • 总结

多线程爬虫概述

  在当今信息爆炸的时代,网络爬虫(Web Scraper)已成为获取和分析网络数据的重要工具。而多线程爬虫,作为一种提高数据采集效率的技术,更是在处理大规模数据时显得尤为重要。本文将介绍多线程爬虫的基本概念、设计原则以及如何应用于图片爬取任务。
  多线程爬虫是一种利用多线程技术来提高爬虫效率的网络爬虫。与传统的单线程爬虫相比,多线程爬虫可以同时执行多个任务,显著提高数据采集的速度。

1.1 多线程的优势

①多线程允许同时执行多个HTTP请求,减少了等待时间。
②更充分地利用服务器和网络资源。
③某个线程的失败不会影响其他线程的执行。

1.2 多线程的挑战

① 需要合理管理线程间的共享资源。
② 确保代码在多线程环境下依然能够正确执行。
③ 过多的线程可能导致资源竞争和上下文切换开销增大。

设计多线程爬虫

1.1 项目设计

① 设计合理的并发级别,保证合理运用网站资源,但又不会出发反爬虫机制。
② 使用线程池进行线程管理,提高资源的利用率。
③ 使用任务队列来存储待爬取的URL,线程从队列中获取任务进行处理。
④ 确保对网络请求和数据处理过程中可能出现的异常进行捕获和处理。
⑤ 生产者和消费者模式分离。

  生产者

class Procuder(threading.Thread):"""生产者爬取页面,获取图片地址加入到图片队列中"""def __init__(self, name, page_queue, img_queue, *args, **kwargs):super(Procuder, self).__init__(*args, **kwargs)self.name = nameself.page_queue = page_queueself.img_queue = img_queuedef run(self):while True:if self.page_queue.empty():print(self.name + '任务完成~')break# 1.获取每一页的urlpage_url = self.page_queue.get()# 2.爬取页面的数据self.spider_page(page_url)# 3.休眠0.5秒time.sleep(0.5)def spider_page(self, url):"""爬取每一页:param url: 每一页的地址:return:"""response = requests.get(url, headers=HEADERS)text_raw = response.text# 1.使用etreehtml_raw = etree.HTML(text_raw)# 2.使用xpath解析数据# 注意:过滤掉gif标签图片imgs = html_raw.xpath('//div[@class="page-content text-center"]//img[@class!="gif"]')# 3.获取图片的实际连接并下载到本地for img in imgs:# 3.1 图片的实际地址img_url = img.get('data-original')# 3.2 图片名称替换特殊符号alt = re.sub(r'[\??\.,。!!\*]', '', img.get('alt'))# 3.3 提取图片的后缀,组装成文件的名字img_name = alt + os.path.splitext(img_url)[-1]# 3.4 把爬取到【图片地址+图片名称】以【元组】的形式加入到队列图片队列中self.img_queue.put((img_url, img_name))

  消费者

class Consumer(threading.Thread):"""消费者获取图片的地址下载到本地"""def __init__(self, name, page_queue, img_queue, *args, **kwargs):super(Consumer, self).__init__(*args, **kwargs)self.name = nameself.page_queue = page_queueself.img_queue = img_queuedef run(self):while True:if self.img_queue.empty() and self.page_queue.empty():print(self.name + '任务完成~')break# 1.解包,获取图片的地址 + 图片的名称img_url, img_name = self.img_queue.get()# 2.使用urlretrieve()函数下载图片到本地request.urlretrieve(img_url, './imgs/%s' % img_name)print(img_name + "下载完成")

1.2 项目流程

  多线程技术可以显著提高爬虫的效率,特别是在网络IO密集型任务中,如图片下载。当一个线程等待网络响应时,其他线程可以继续执行,这样可以充分利用网络资源和CPU资源,提高爬取速度。

  1. 初始化队列。
	# 1.页面的队列page_queue = Queue(100)# 2.表情图片的队列img_queue = Queue(1000)
  1. 爬取页面地址
	# 3.爬取页面的地址for x in range(1, 10):url = 'http://www.doutula.com/photo/list/?page=%d' % x#  存入到页面地址队列中page_queue.put(url)
  1. 生产者和消费者模式分离,多线程爬取图片
	for x in range(5):t = Procuder(name='生产线程-%d' % x, page_queue=page_queue, img_queue=img_queue)t.start()for x in range(5):t = Consumer(name='消费线程-%d' % x, page_queue=page_queue, img_queue=img_queue)t.start()

1.3注意事项

① 在进行网络爬虫操作时,必须遵守相关法律法规,尊重目标网站的robots.txt文件。
② 设置合理的用户代理,模拟正常用户访问。
③ 合理设置请求频率,避免给服务器带来过大压力。

总结

  多线程爬虫通过提高并发度,可以大幅提升数据采集的效率,尤其适用于图片等静态资源的爬取。然而,设计和实现多线程爬虫需要考虑线程安全、资源管理和异常处理等多个方面。在实践中,开发者应注重效率与规范的平衡,确保爬虫的合法合规运行。

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/924.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

贪吃蛇游戏源码(VS编译环境)

贪吃蛇游戏源码(VS编译环境) 🥕个人主页:开敲🍉 🔥所属专栏:C语言🍓 🌼文章目录🌼 1. Snake.h 头文件 2. Snake.c 源文件 3. Test.c 头文件 1. Snake.h 头…

什么是promise?

一个对象,用来处理异步操作。使异步操作写的更优雅、更易于阅读。 从字面上理解,promise是承诺、许诺的意思。意思是使用promise后,不管成功还是失败肯定会有返回值。 promise有三种状态:pending(进行中)&a…

linux常用命令,没有最全,只有更全 【持续更新】

工作中linux是大家常用的,下面这些linux命令涵盖了工作中常用的,相信你百分百会用的到! 文件和目录操作: ls:列出当前目录下的文件和子目录。 例如:ls -l 显示详细信息,ls -a 显示所有文件&…

Dubbo元数据中心

元数据中心为 Dubbo 中的两类元数据提供了存取能力:地址发现元数据、服务运维元数据。 一、地址发现元数据 Dubbo3 中引入了应用级服务发现机制用来解决异构微服务体系互通与大规模集群实践的性能问题,应用级服务发现将全面取代 2.x 时代的接口级服务发…

java的常规算法有那些?

在Java编程中,有一系列常规算法被广泛应用,这些算法涵盖了排序、搜索、字符串处理等多个领域。下面列出了一些基本的算法和它们在Java中的应用: 排序算法 冒泡排序:通过重复遍历待排序列,比较相邻元素,将…

C/C++易错知识点(4):static修饰变量和函数

static是C/C中一个非常容易混淆的语法,在不同的地方针对不同的对象有不同的效果。 它在大型项目中有至关重要的作用,需要我们详细研究。 1.变量 所有static修饰的变量的生命周期都是自调用它起到程序结束,期间这些变量都只会初始化一次 ①…

七牛云配置,图片上传、查看的使用(备忘)

修改配置文档 修改新创建的空间的地区名 访问设置为 公开,不然会有访问时间限制 检查 上传和查看的链接是否正确。

STL容器搜索:当直接访问STL容器时,如何执行有效和正确的搜索?

掌握STL容器搜索技巧:在C中实现高效和准确的数据访问 一、简介二、std::vector, std::deque, std::list三、std::map, std::multimap, std::set, std::multiset四、std::string六、总结 一、简介 本文主要了解如何在直接访问c容器时高效地进行搜索。在STL容器中搜索&#xff0…

5_vscode+valgrind+gdb调试程序

需求 项目程序, 读取串口数据, 出现程序崩溃问题valgrind 可以调试定位内存问题: 内存泄漏,非法地址访问,越界访问等内存问题vscode gdb 可视化调试效果, 比命令行简单快捷很多期望使用vscode valgrind gdb 调试程序内存异常, 崩溃退出的问题 环境准备 sudo apt install v…

【个人博客搭建】(5)Sqlsugar实体创建数据库数据

1、在appsettings.json文件中配置SqlServer数据库连接字符串信息。(后续考虑添加MySQL数据库等类型) "DBS": [/*对应下边的 DBTypeMySql 0,SqlServer 1,*/{"ConnId": "plateau.poetize.2024","DBType": 1,&qu…

书生·浦语大模型实战营之XTuner多模态训练与测试

书生浦语大模型实战营之XTuner多模态训练与测试 目录 XTuner多模态训练与测试给LLM装上电子眼:多模态LLM原理简介文本单模态文本+图像多模态电子眼:LLaVA方案简介LLaVA训练阶段示意图LLaVA测试阶段示意图项目实践环境准备XTuner安装概述Pretrain阶段Finetune阶段训练数据构建…

14.基础乐理-音级、基本音级、变化音级

音级: 乐音体系中的每一个音,都叫 音级。 基本音级: 基本音级是 CDEFGAB 它们七个,在钢琴上使用白键展示的,没有任何升降号、没有任何重升重降号的。 变化音级: 除了 CDEFGAB 这七个音,都叫变化…

vue 下载文件 处理后台返回的文件流

1. 下载文件很常见,下载成各种格式的也很常见,本质就是后台返回一个文件流,我们前端去处理一下就行,但是如果因为某些条件,没有返回文件流,返回告诉你,文件出现错误了,那我们就需要把…

C#中对任务和线程并行运行,测试其执行时间

为了提高程序的的性能,减少流程的时间时,我们总是会考虑将流程分成多个部分,并在同一时刻执行它。这就是并行性,那么在并行中线程和任务哪个更好呢? 1.使用线程 在此示例中,我们将每个线程添加到一个列表…

跑步新潮流:Shokz韶音OpenRun Pro配色引领风骚

Shokz韶音OpenRun Pro自推出以来,凭借其卓越的产品性能,赢得了广泛运动爱好者的青睐。尤其是,新近推出的特别配色版本,包括“牛仔蓝”和“水泥灰活力橙”的基普乔格联名款,这些全新色调进一步突显了使用者的个性化需求。 在众多选择中,Shokz韶音OpenRun Pro的“牛仔蓝”配色受…

neo4j的Cypher的语法记录

1.参考1 Neo4j图数据库及Cypher语法基础 | Quantum Bit 参考2 常用CYPHER查询(二) - Yc-Ma Blog 1.1 查询 MATCH (n) RETURN n LIMIT 25 1.2 删除节点及关系 删除节点 删除关系 MATCH (n:PersonWeb {personWebName: "玉笙lalala"}) D…

Makefile后知后觉几件事

导言 以前经常用Makefile,但是仅是用而已,没有从头折腾过,所以,谈不上很深的理解。 最近针对一些场景做了一些实践,对于Makefile中经常遇到的各种变量类型,和目标依赖关系,以及与make并行编译…

使用 Flask 和 Flask-Login 构建用户认证的 Web 应用程序

在本篇技术博客中,我们将学习如何使用 Flask 框架和 Flask-Login 扩展构建一个具有用户认证功能的简单 Web 应用程序。我们将从创建 Flask 应用实例开始,然后逐步添加用户认证功能。 1. 安装依赖库 首先,确保您已经安装了 Flask、Flask-PyM…

create (MUs)方法

创建移动对象 (create (MUs)) 此部分来自 Plant Simulation 的对象参考指南,介绍用于创建移动对象的 create (MUs) 方法。 功能: 创建指定类型的移动对象 (MU) 实例。语法: <MU-路径>.create(MU-位置:any[, 位置:长度, 复制统计数据:布尔值, 前驱编号:整型]) → 对象…

学习前端第二十五天(构造器和操作符‘new’,可选链‘?.’,symbol类型)

一、构造器和操作符‘new’ 构造函数&#xff1a; 命名以大写字母开头。只能由 "new" 操作符来执行。 当一个函数被使用 new 操作符执行时&#xff0c;它按照以下步骤&#xff1a; 一个新的空对象被创建并分配给 this。函数体执行。通常它会修改 this&#xff0c…