python多线程_python多线程:控制线程数量

37ed5c166736c1632c32fdb297e95c26.png

背景

9ee93a83548f0dc99f50a8ee2bcdc2d6.png

前段时间学习了python的多线程爬虫,当时爬取一个图片网站,开启多线程后,并没有限制线程的数量,也就是说,如果下载1000张图片,会一次性开启1000个子线程同时进行下载     

现在希望控制线程数量:例如每次只下载5张,当下载完成后再下载另外5张,直至全部完成  

查了一些资料,发现在python中,threading 模块有提供 Semaphore类 和 BoundedSemaphore 类来限制线程数

详细说明可以看看下面几篇文章,写的很棒:

  • https://docs.python.org/3.5/library/threading.html?highlight=threading#semaphore-objects

  • https://www.liujiangblog.com/course/python/79

  •  https://my.oschina.net/u/3524921/blog/920303

  •  https://zhuanlan.zhihu.com/p/34159519    

官网给出例子如下:信号量通常用于保护容量有限的资源,例如数据库服务器。在资源大小固定的任何情况下,都应使用有界信号量。在产生任何工作线程之前,您的主线程将初始化信号量:

maxconnections = 5# ...pool_sema = BoundedSemaphore(value=maxconnections)
产生后,工作线程在需要连接到服务器时会调用信号量的获取和释放方法:
with pool_sema:    conn = connectdb()    try:        # ... use connection ...    finally:        conn.close()

改造之前的多线程爬虫

9ee93a83548f0dc99f50a8ee2bcdc2d6.png

首先贴出原来的代码
# -*- coding:utf-8 -*-import requestsfrom requests.exceptions import RequestExceptionimport os, timeimport refrom lxml import etreeimport threadinglock = threading.Lock()def get_html(url):    """    定义一个方法,用于获取一个url页面的响应内容    :param url: 要访问的url    :return: 响应内容    """    response = requests.get(url, timeout=10)    # print(response.status_code)    try:        if response.status_code == 200:            # print(response.text)            return response.text        else:             return None    except RequestException:        print("请求失败")        # return Nonedef parse_html(html_text):    """    定义一个方法,用于解析页面内容,提取图片url    :param html_text:    :return:一个页面的图片url集合    """    html = etree.HTML(html_text)    if len(html) > 0:        img_src = html.xpath("//img[@class='photothumb lazy']/@data-original")  # 元素提取方法        # print(img_src)        return img_src    else:        print("解析页面元素失败")def get_image_pages(url):    """    获取所查询图片结果的所有页码    :param url: 查询图片url    :return: 总页码数    """    html_text = get_html(url)  # 获取搜索url响应内容    # print(html_text)    if html_text is not None:        html = etree.HTML(html_text)  # 生成XPath解析对象        last_page = html.xpath("//div[@class='pages']//a[last()]/@href")  # 提取最后一页所在href链接        print(last_page)        if last_page:            max_page = re.compile(r'(\d+)', re.S).search(last_page[0]).group()  # 使用正则表达式提取链接中的页码数字            print(max_page)            print(type(max_page))            return int(max_page)  # 将字符串页码转为整数并返回        else:            print("暂无数据")            return None    else:        print("查询结果失败")def get_all_image_url(page_number):    """    获取所有图片的下载url    :param page_number: 爬取页码    :return: 所有图片url的集合    """    base_url = 'https://imgbin.com/free-png/naruto/'    image_urls = []    x = 1  # 定义一个标识,用于给每个图片url编号,从1递增    for i in range(1, page_number):        url = base_url + str(i)  # 根据页码遍历请求url        try:            html = get_html(url)  # 解析每个页面的内容            if html:                data = parse_html(html)  # 提取页面中的图片url                # print(data)                # time.sleep(3)                if data:                    for j in data:                        image_urls.append({                            'name': x,                            'value': j                        })                        x += 1  # 每提取一个图片url,标识x增加1        except RequestException as f:            print("遇到错误:", f)            continue    # print(image_urls)    return image_urlsdef get_image_content(url):    """请求图片url,返回二进制内容"""    # print("正在下载", url)    try:        r = requests.get(url, timeout=15)        if r.status_code == 200:            return r.content        return None    except RequestException:        return Nonedef main(url, image_name):    """    主函数:实现下载图片功能    :param url: 图片url    :param image_name: 图片名称    :return:    """    semaphore.acquire()  # 加锁,限制线程数    print('当前子线程: {}'.format(threading.current_thread().name))    save_path = os.path.dirname(os.path.abspath('.')) + '/pics/'    try:        file_path = '{0}/{1}.jpg'.format(save_path, image_name)        if not os.path.exists(file_path):  # 判断是否存在文件,不存在则爬取            with open(file_path, 'wb') as f:                f.write(get_image_content(url))                f.close()                print('第{}个文件保存成功'.format(image_name))        else:            print("第{}个文件已存在".format(image_name))        semaphore.release()  # 解锁imgbin-多线程-重写run方法.py    except FileNotFoundError as f:        print("第{}个文件下载时遇到错误,url为:{}:".format(image_name, url))        print("报错:", f)        raise    except TypeError as e:        print("第{}个文件下载时遇到错误,url为:{}:".format(image_name, url))        print("报错:", e)class MyThread(threading.Thread):    """继承Thread类重写run方法创建新进程"""    def __init__(self, func, args):        """        :param func: run方法中要调用的函数名        :param args: func函数所需的参数        """        threading.Thread.__init__(self)        self.func = func        self.args = args    def run(self):        print('当前子线程: {}'.format(threading.current_thread().name))        self.func(self.args[0], self.args[1])        # 调用func函数        # 因为这里的func函数其实是上述的main()函数,它需要2个参数;args传入的是个参数元组,拆解开来传入if __name__ == '__main__':    start = time.time()    print('这是主线程:{}'.format(threading.current_thread().name))    urls = get_all_image_url(5)  # 获取所有图片url列表    thread_list = []  # 定义一个列表,向里面追加线程    semaphore = threading.BoundedSemaphore(5) # 或使用Semaphore方法    for t in urls:        # print(i)        m = MyThread(main, (t["value"], t["name"]))  # 调用MyThread类,得到一个实例        thread_list.append(m)    for m in thread_list:        m.start()  # 调用start()方法,开始执行    for m in thread_list:        m.join()  # 子线程调用join()方法,使主线程等待子线程运行完毕之后才退出    end = time.time()    print(end-start)    # get_image_pages("https://imgbin.com/free-png/Naruto")
将代码进行改造  1、下面的第8、9行表示调用 threading 的 BoundedSemaphore类,初始化信号量为5,把结果赋给变量 pool_sema
if __name__ == '__main__':    start = time.time()    print('这是主线程:{}'.format(threading.current_thread().name))    urls = get_all_image_url(5)  # 获取所有图片url列表    thread_list = []  # 定义一个列表,向里面追加线程    max_connections = 5  # 定义最大线程数    pool_sema = threading.BoundedSemaphore(max_connections) # 或使用Semaphore方法    for t in urls:        # print(i)        m = MyThread(main, (t["value"], t["name"]))  # 调用MyThread类,得到一个实例        thread_list.append(m)    for m in thread_list:        m.start()  # 调用start()方法,开始执行    for m in thread_list:        m.join()  # 子线程调用join()方法,使主线程等待子线程运行完毕之后才退出    end = time.time()    print(end-start)

2、修改main()函数  

(1)方法一:通过with语句实现,第9行添加 with pool_sema: 

使用 with 语句来获得一个锁、条件变量或信号量,相当于调用 acquire();离开 with 块后,会自动调用 release()

def main(url, image_name):    """    主函数:实现下载图片功能    :param url: 图片url    :param image_name: 图片名称    :return:    """    with pool_sema:        print('当前子线程: {}'.format(threading.current_thread().name))        save_path = os.path.dirname(os.path.abspath('.')) + '/pics/'        try:            file_path = '{0}/{1}.jpg'.format(save_path, image_name)            if not os.path.exists(file_path):  # 判断是否存在文件,不存在则爬取                with open(file_path, 'wb') as f:                    f.write(get_image_content(url))                    f.close()                    print('第{}个文件保存成功'.format(image_name))            else:                print("第{}个文件已存在".format(image_name))        except FileNotFoundError as f:            print("第{}个文件下载时遇到错误,url为:{}:".format(image_name, url))            print("报错:", f)            raise        except TypeError as e:            print("第{}个文件下载时遇到错误,url为:{}:".format(image_name, url))            print("报错:", e)
(2)方法二:直接使用acquire() 和 release()下面的第8行调用 acquire(),第24行调用 release()
def main(url, image_name):    """    主函数:实现下载图片功能    :param url: 图片url    :param image_name: 图片名称    :return:    """    pool_sema.acquire()  # 加锁,限制线程数    # with pool_sema:    print('当前子线程: {}'.format(threading.current_thread().name))    save_path = os.path.dirname(os.path.abspath('.')) + '/pics/'    try:        file_path = '{0}/{1}.jpg'.format(save_path, image_name)        if not os.path.exists(file_path):  # 判断是否存在文件,不存在则爬取            with open(file_path, 'wb') as f:                f.write(get_image_content(url))                f.close()                print('第{}个文件保存成功'.format(image_name))        else:            print("第{}个文件已存在".format(image_name))        pool_sema.release()  # 解锁imgbin-多线程-重写run方法.py    except FileNotFoundError as f:        print("第{}个文件下载时遇到错误,url为:{}:".format(image_name, url))        print("报错:", f)        raise    except TypeError as e:        print("第{}个文件下载时遇到错误,url为:{}:".format(image_name, url))        print("报错:", e)

最终效果是一样的,每次启用5个线程,完成后再启动下一批

4c78fc3ca53a92e7043d5720bec5bec3.gif

288354afd7e18a2107a5ca2619c49d19.png

e335b024a9322e2f7fc69ca2233abf5f.gif

喜欢记得来一个

1450100e20436e176441501e9724738d.gif

1f77991174b8557456721dff492b20c3.gif

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/350883.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ubuntu 添加用户、用户组

添加用户 useradd xxx -m 创建一个xxx的用户 sudo passwd xxx 设置xxx用户的密码 su xxx 切换到xxx用户 su – xxx 切换到xxx用户,且家目录变为xxx家目录 whoami 看用户名 who 查看登录用户 exit …

python实践系列之(一)安装 python/pip/numpy/matplotlib

1.下载并安装Python3.4 在官网下载即可:Python官网 图1-1 图1-2打开Python图形界面: 图1-3 输入 2345,回车,出现如图,说明安装成功。 图1-42.安装pip (1)查看是否已安装pip 进入cmd命令窗口&…

2019-04(1)(Python学习)

9.1 迭代器 创建迭代器的3种方法: 方法一: 容器对象添加 __iter__() 和 __next__() 方法(Python 2.7 中是 next());__iter__() 返回迭代器对象本身 self,__next__() 则返回每次调用 next() 或迭代时的元素&…

ubuntu 查看进程信息

查看进程信息 ps ps -aux 查看所有进程,每行一个程序 top 显示当前运行程序 kill 98 (98为PID号,) kill -9 98 (强制杀死98)

浏览器崩溃_字节跳动程序员28岁身价上亿,财务自由宣布退休;微软最新系统再迎“喜报”:更多用户的浏览器开始崩溃...

新闻1:字节跳动程序员28岁身价上亿,财务自由宣布退休最近字节跳动前员工郭宇火了。原因是他在今年二月份发了一条微博。大概是说他在28岁的年纪实现了财务自由,然后选择了退休。郭宇本来是字节跳动的一名程序员,但现在已经离职去往…

Python图像处理库PIL中图像格式转换(一)

在数字图像处理中,针对不同的图像格式有其特定的处理算法。所以,在做图像处理之前,我们需要考虑清楚自己要基于哪种格式的图像进行算法设计及其实现。本文基于这个需求,使用Python中的图像处理库PIL来实现不同图像格式的转换。 对…

spring 构造函数注入_Spring构造函数注入和参数名称

spring 构造函数注入在运行时,除非在启用了调试选项的情况下编译类,否则Java类不会保留构造函数或方法参数的名称。 这对于Spring构造函数注入有一些有趣的含义。 考虑以下简单的类 package dbg; public class Person {private final String first;pr…

C#基础加强(8)之委托和事件

委托 简介 委托是一种可以声明出指向方法的变量的数据类型。 声明委托的方式 格式&#xff1a; delegate <返回值类型> 委托类型名(参数) &#xff0c;例如&#xff1a; delegate void MyDel(string str) 。 // 注意&#xff1a;这里除了前面的 delegate 关键字&#xff…

模板类的析构函数如何写_顶尖文案如何写?这6大模板、29个方法,奥美大咖都在用!|优惠最后1天...

敲黑板划重点&#xff1a;《顶尖文案训练营》第5期将于2月20日(正月十六)开班&#xff0c;现在报名享受春节特惠8折优惠&#xff0c;今天是优惠最后1天&#xff01;先到先得&#xff0c;速速报名抢位&#xff5e;马上就是2.14情人节了&#xff0c;馒火火在这里提前祝大家情人节…

ubuntu 查看日历,日期

cal 查看当前月日历 cal -y 2008 查看2008年日历 cal -y 2008 > 123.txt 打印到123.txt date 当前日期具体时间 date “%y年%m月%d日”

有效的Java –所有对象通用的方法

所有对象共有的方法&#xff08;第3章&#xff09; 这是Joshua Blochs的《 有效的Java》第3章的简短摘要。我仅包括与自己相关的项目。 一般 等值合约将等价关系描述为&#xff1a; x.equals(null) false 自反 – x.equals(x) true 对称 –如果x.equals(y) true则y.equa…

几种页面置换算法

地址映射过程中&#xff0c;若在页面中发现所要访问的页面不再内存中&#xff0c;则产生缺页中断。当发生缺页中断时操作系统必须在内存选择一个页面将其移出内存&#xff0c;以便为即将调入的页面让出空间。而用来选择淘汰哪一页的规则叫做页面置换算法。常见的置换算法有&…

win7摄像头怎么开_win7网络连接不可用怎么办

win7网络连接不可用怎么办&#xff1f;网络出现故障最常见的就是网络明明连接上&#xff0c;但是依然提示网络连接不可用&#xff0c;小白系统遇到最常见的就是使用win7系统的用户反馈的&#xff0c;下面让小白系统教你解决win7网络连接不可用的问题吧。首先我们判断网络状态是…

cmake--安装

一&#xff0c; 目录结构 ├── cmake-examples.conf├── CMakeLists.txt├── include│ └── installing│ └── Hello.h└── src ├── Hello.cpp └── main.cpp * link:CMakeLists.txt[] - Contains the CMake commands yo…

ubuntu 关机重启

关机&#xff0c;重启 reboot &#xff08;重启&#xff09; shutdown -h now &#xff08;立刻关机&#xff09; shutdown -h 10 &#xff08;10min后立刻关机&#xff09; shutdown -h 20:05 &#xff08;今天20:05立刻关机&#xff09;

excel合并两列内容_excel新手问题:怎么把两列数据合并到一起?用这个公式

今天看见有新手在问&#xff1a;怎么把两列数据合并到一起&#xff1f;其实&#xff0c;这种情况在工作中会经常遇到&#xff0c;但很多人可能还在用复制粘贴的方法。只要掌握最简单的一个函数公式&#xff0c;就可以实现快速两列合并。第一步&#xff1a;掌握“&”运算符使…

Pycharm Anaconda 安装dlib

由于采用python3.7安装会出现各种问题&#xff0c;两种解决方法。 1&#xff09;安装Cmake boost等&#xff08;不推荐&#xff0c;麻烦且不容易成功&#xff09;。 2&#xff09;安装Anaconda&#xff0c;创建一个python3.6的环境。 这里使用第二种。 一、安装Anaconda 。 方法…

java 使用jasper_使用Jasper Reports以Java创建报告

java 使用jasper上周&#xff0c;我试图使用Jasper创建报告。 在这篇文章中&#xff0c;我将记录一些资源和链接&#xff0c;以便对任何寻求类似信息的人都有用。 我将介绍Jasper报告&#xff0c;示例和Dynamic Jasper的生命周期。 Jasper Reports是世界上最受欢迎的开源报告…

计算机科学基础知识(四): 动态库和位置无关代码

一、前言 本文主要描述了动态库以及和动态库有紧密联系的位置无关代码的相关资讯。首先介绍了动态库和位置无关代码的源由&#xff0c;了解这些背景知识有助于理解和学习动态库。随后&#xff0c;我们通过加-fPIC和不加这个编译选项分别编译出两个relocatable object file&…