Python爬虫的基础用法

python爬虫一般通过第三方库进行完成

导入第三方库（如import requests ）
requests用于处理http协议请求的第三方库,用python解释器中查看是否有这个库，没有点击+安装
获取网站url（url一定要解析正确，如在百度网站中的某个图片，不是指www.baidu.com，而是这个图片的具体地址（可以点击查看，亦可以用浏览器自带的检查功能进行寻找））
之后通过requests.get打开网站，设置自己适用的encoding
用a = re.findall('<标签>正则表达式<标签>',文件名)通过HTML定义的标签，找到自己想要的内容，再赋值给一个变量a（并将获取到的数据以指定的数据类型存储到文件中）
将文件内容使用print输出进行查看

示例如下：

# url = "http://weather.com.cn/weather1d/101010100.shtml#search"
# resp = requests.get(url)          # 打开浏览器访问该地址
# resp.encoding = 'UTF-8'
# print(resp)# 返回访问代码 200表示成功 500 错误
# print(resp.text) # 展示网页 （html代码的形式展示网页）# city = re.findall('<span class="name">([\u4e00-\u9fa5]*)</span>', resp.text)
# weather = re.findall('<span class="weather">([\u4e00-\u9fa5]*)</span>', resp.text)
# 以上赋值操作中的内容必须在resp.text中存在
# lst = []
# for a,b in zip(city, weather,):  # 通过zip方式将爬取到的内容填充到list中
#         lst.append([a,b])
# for i in lst:
#     print(i)
# 爬取图片与之相似
# url = "https://uhf.microsoft.com/images/microsoft/RE1Mu3b.png"
# resp = requests.get(url)
# # print(resp.content)
# with open('logo.png', 'wb') as f:
#     f.write(resp.content)