requests库基本使用
- 基本流程
python中一个基于网络请求的模块,功能强大,简单便捷,效率极高,可以取代古老的urllib模块。
作用:模拟浏览器向服务器发起请求。
基本流程
- 1.指定URL
- 2.对指定的URL发起请求(get或post)
- 3.获取响应的数据
- 4.持久化存储数据,即将数据存储到本地
如爬取搜狗主页信息,代码如下:
import requests
#1.指定url
url="https://www.sogou.com/"
#2.发起请求,get方法返回一个响应对象
response=requests.get(url=url)
#3.获取响应数据,text返回的是字符串形式的响应数据(源代码)
page_text=response.text
print(page_text)
#4.持久化存储
with open('./sougou.html','w',encoding='utf-8') as f:f.write(page_text)
print("爬取结束!")