网页采集器
- User-Agent伪装
- 完整代码
功能:通过动态url来实现用户输入搜索关键字,返回搜索到的页面。
User-Agent伪装
一种反爬机制。
原理:网站的服务器会检测对于请求的载体身份标识,如果检测到请求的载体身份标识为某一款浏览器,
说明该请求为一个正常的请求。然而我们写的get请求的身份标识是爬虫程序,所以需要伪装成浏览器的User-Agent。
完整代码
import requests
headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.101 Safari/537.36 Edg/91.0.864.48'}#url='https://www.sogou.com/web?query=加藤惠'
url='https://www.sogou.com/web?' #问号可要可不要
#制作动态url,处理url携带的参数
kw=input('输入一个关键词:')
param={'query':kw
}
response=requests.get(url=url,params=param,headers=headers) #等于在url后面自动拼接了参数,headers增加了请求头
page_text=response.textfilename=kw+'.html'
with open(filename,'w',encoding='utf-8') as f:f.write(page_text)
print(filename+'保存成功!!!')