Python爬虫的基础用法
python爬虫一般通过第三方库进行完成
- 导入第三方库(如
import requests
)
requests
用于处理http协议请求的第三方库,用python解释器中查看是否有这个库,没有点击+安装 - 获取网站
url
(url一定要解析正确,如在百度网站中的某个图片,不是指www.baidu.com,而是这个图片的具体地址(可以点击查看,亦可以用浏览器自带的检查功能进行寻找)) - 之后通过
requests.get
打开网站,设置自己适用的encoding
- 用
a = re.findall('<标签>正则表达式<标签>',文件名)
通过HTML定义的标签,找到自己想要的内容,再赋值给一个变量a(并将获取到的数据以指定的数据类型存储到文件中) - 将文件内容使用
print
输出进行查看
示例如下:
# url = "http://weather.com.cn/weather1d/101010100.shtml#search"
# resp = requests.get(url) # 打开浏览器访问该地址
# resp.encoding = 'UTF-8'
# print(resp)# 返回访问代码 200表示成功 500 错误
# print(resp.text) # 展示网页 (html代码的形式展示网页)# city = re.findall('<span class="name">([\u4e00-\u9fa5]*)</span>', resp.text)
# weather = re.findall('<span class="weather">([\u4e00-\u9fa5]*)</span>', resp.text)
# 以上赋值操作中的内容必须在resp.text中存在
# lst = []
# for a,b in zip(city, weather,): # 通过zip方式将爬取到的内容填充到list中
# lst.append([a,b])
# for i in lst:
# print(i)
# 爬取图片与之相似
# url = "https://uhf.microsoft.com/images/microsoft/RE1Mu3b.png"
# resp = requests.get(url)
# # print(resp.content)
# with open('logo.png', 'wb') as f:
# f.write(resp.content)