python捕捉线程错误_Pythonrequests多线程抓取出现HTTPConnectionPoolMaxretiresexceeded异常...

问题: Python requests 多线程抓取 出现HTTPConnectionPool Max retires exceeded异常

描述:

主要代码如下:import threading

import requests

def get_info():

try:

res = requests.get('http://www.xxx.com/test/json')

if res.status_code == 200 and res.text != '':

print res.text

else:

print res.status_code

time.sleep(10)

get_info()

except Exception as e:

print e

def start():

threads = []

for i in range(40):

threads.append(threading.Thread(target=get_info,args=()))

for t in threads:

time.sleep(0.3)

t.start()

for t in threads:

t.join()

if __name__ == '__main__':

start()

代码临时写,可能有小错误,大概就是这么个意思:

开启40个线程,间隔0.3秒请求。刚开始很正常,但是2轮过后几乎80% 90%的请求都报异常

HTTPConnectionPool(host='http://www.xxx.com/',port=80):Max retries exceeded with url: /test/json (Caused by(class 'socked.error'):[Errno 10060])

请问是哪里出了问题?

感谢你们的回答

抓的确实是小站。

我的想法是如果服务器临时封禁的话,应该是报10054的错误。

可看起来又像是服务器封禁,前几轮请求都是很正常的,为什么持续时间越长,抛出的异常就越多?

重试几次的方法我做过,似乎不太起作用:def get_info(retries=3):

if 200:

...

else:

if retries > 0:

time.sleep(5)

get_info(retries-1)

初学Python,用来作爬虫。实际上这个问题已经困扰我很久了。我想这个应该是在爬虫项目中很常见的问题,请问该如何着手优化(少量异常可以接受)这个问题?解决方案1:

Python-Requests close http connection

最近我也碰到了这个问题,好像是http连接太多没有关闭导致的,你可以看看这个帖子。

s = requests.session()

s.config['keep_alive'] = False

requests使用了urllib3库,默认的http connection 是keep-alive的,requests中可以设置False关闭。解决方案2:

可能是访问太频繁,被封禁了?解决方案3:

因为你本地的端口不够用了。解决方案4:

你访问的是小站吧?我遇到过一个站,爬数据有时会出问题,不知道是服务器真力不从心还是被临时封禁了。解决方案5:

应该是你的服务器与目标站之间的网络连接出了问题,可以在访问目标站时多重试几次..

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/558085.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

java io 文件路径_【IO流】java中文件路径(相对路径、绝对路径)相关类及方法...

1. URL菜鸟教程:Java URL处理 通常推荐对http等协议进行使用,若操作(file:)部分属性将无意义,建议getFile()。相关:URLConnections 类 可以打开连接进行IO 通过getResource方法可以获得相对于classPath的文件的URL2. FileTestvoid…

java classpath顺序_JVM中类加载顺序及classpath简介

昨天,看一个build Standalone中databrusher的一个脚本,发现一个Java类似乎没有在classpath中,好像也可一直运行了。很疑惑,问了对应的开发同学,然后自己好好看了下它的代码,才知道了原理。命令是&#xff1…

java 过滤脚本_【快学SpringBoot】过滤XSS脚本攻击(包括json格式)

XSS攻击是什么XSS攻击全称跨站脚本攻击,是为不和层叠样式表(Cascading Style Sheets, CSS)的缩写混淆,故将跨站脚本攻击缩写为XSS,XSS是一种在web应用中的计算机安全漏洞,它允许恶意web用户将代码植入到提供给其它用户使用的页面中…

java高级教程_Java高级教程02

1.Java线程1.1. 多线程和多进程多进程:操作系统能够同时进行多个任务: 每个app(word,播放器,浏览器)可以同时运行多线程:同一应用程序中哟多个顺序流同时执行线程是进程中的一部分1.2. 线程的执行过程:主要过程:多线程…

java 带宽控制_如何使用Java netty正确限制带宽使用?

对于我使用netty nio lib在Java中开发的下载客户端,我还实现了带宽限制功能.从技术上讲,我是通过GlobalTrafficShapingHandler对象完成的.基于这个类’JavaDoc我初始化nio客户端管道如下:...trafficHandler new GlobalTrafficShapingHandler(new HashedWheelTimer(…

【LeetCode刷题笔记】动态规划(二)

647. 回文子串 解题思路: 1. 暴力穷举 , i 遍历 [0, N) , j 遍历 [i+1, N] ,判断每一个子串 s[i, j) 是否是回文串,判断是否是回文串可以采用 对撞指针 的方法。如果是回文串就计数 +1

mysql数据库集群备份策略_mysql高可用方案之集群(cluster)

1.实验环境我用三台服务器搭建mysql cluster环境,sql节点和数据节点在同一服务器上,管理节点单独一台.cluster node1:192.168.1.102 data node1:192.168.1.102cluster node2:192.168.1.104 data node2:192.168.1.104manager node:192.168.1.19OS:centos 6.4 64位…

数据结构 排序 java_Java数据结构之排序---选择排序

简单选择排序的介绍:从给定的序列中,按照指定的规则选出某一个元素,再根据规定交换位置后达到有序的目的。简单选择排序的基本思想:假定我们的数组为int [] arr new int[n],第一次我们从arr[0]~arr[n-1]中选择出最小的…

php和java 2017_Php与java的区别

Php与java的区别1.java和php技术层面对比:java是纯面向对象开发,功能强大,分支众多,没有java不能做的软件,PHP有他独特的领域,那就是WEB在这方面没有可以和他相比较,其与java相比较之下在这一方面基本上完胜java因其专注的领域不同所以没有太大可比性,PHP适合于快速开发,中小型…

python百度aip移动目标监控系统_python利用百度云接口实现车牌识别

一个小需求---实现车牌识别。目前有两个想法调云在线的接口或者使用SDK做开发(配置环境和编译第三方库很麻烦,当然使用python可以避免这些问题)自己实现车牌识别算法(复杂)!一开始准备使用百度云文字识别C SDK来做,发现需要准备curl、jsoncpp…

centos tar安装mysql_centos系统通过tar.gz包安装mysql5.7.19

系统:centos6.5 64位系统1、下载mysql本人选的linux generic 通用版 64位2、把mysql传到服务器并解压到/usr/localtar -xzvf mysql-5.7.19-linux-glibc2.12-x86_64.tar -C /usr/local3、进入/usr/local目录:cd /usr/local4、为mysql安装目录创建软链接ln -s mysq…

java6打印机不能用_高分求解:java中调用的打印机在什么情况下不可用?

java文档中说PrinterJob类中的getPrinterJob()方法无论返回的打印机是否可用都不会返回一个null值。我查阅过一些文献有介绍说可以用getPrintService()方法测试返回的数值是否为null来...java文档中说PrinterJob类中的getPrinterJob()方法无论返回的打印机是否可用都不会返回一…

java中算两个时间内的秒数_java – Joda Time – 计算两个日期之间的秒数会引发异常....

我使用以下代码来计算两个日期之间的秒数差异:long secondsBetween (Seconds.secondsBetween(new LocalDate("1901-01-01"), new LocalDate()).getSeconds());但是我得到以下异常:08-08 18:21:27.345: E/AndroidRuntime(6972): java.lang.Run…

java快速排序从小到大_JAVA一个快速排序实现代码

首先排序的方法有很多种:插入排序,冒泡排序,堆排序,归并排序,选择排序,计数排序,基数排序,桶排序,快速排序等这里是主要讲解一下快速排序这个方法,我也是看了…

java 反射 内存_Java 反射

Java 反射正常的类加载过程当执行new xxx();语句时,JVM会被触发加载.class文件JVM从本地文件找到class文件并且加载到内存中JVM自动创建一个class对象 (一个类只产生一个class对象)将Java的二进制代码合并到JVM的运行状态之中验证: 确保类的信息符合JVM规…

java取json对象的值_java的JsonObject对象提取值方法

实例如下所示:import com.alibaba.fastjson.JSON;import com.alibaba.fastjson.JSONArray;import com.alibaba.fastjson.JSONObject;import io.swagger.models.auth.In;import java.io.IOException;import java.security.KeyManagementException;import java.securi…

aqs clh java_【Java并发编程实战】----- AQS(一):简介

在前面博客中,LZ讲到了ReentrantLock、ReentrantReadWriteLock、Semaphore、CountDownLatch,他们都有各自获取锁的方法,同时相对于Java的内置锁,他们具有明显的优势:花最小的空间开销创建锁、最少的时间开销获得锁、使…

为什么数据结构不用java_泛谈Java中的不可变数据结构

作为我最近一直在进行的一些编码访谈的一部分,有时会出现不变性问题。我自己并不过分教条,但每当不需要可变状态时,我会试图摆脱导致可变性的代码,这在数据结构中通常是最明显的。然而,似乎对不可变性的概念存在一些误…

java后台解析json并保存到数据库_[Java教程]ajax 发送json 后台接收 遍历保存进数据库...

[Java教程]ajax 发送json 后台接收 遍历保存进数据库0 2017-09-25 15:00:23前台怎么拿参数的我就不管了我也不会反正用这个ajax没错ajax 代码 一定要写明http请求类型 {contentType:"application/x-www-form-urlencoded; charsetutf-8",}这一段很重要(就是因为这个…

java实时更新权限_java – 如何使用Spring Security重新加载用户更新的权限

如果您需要动态更新登录的用户权限(当这些权限发生变化时,无论什么原因),无需登出并登录,您只需要重置Spring SecurityContextHolder中的Authentication对象(安全令牌)即可.例:Authentication auth SecurityContextHolder.getContext().getAuthentication();List u…