上传网站标志唐山市住房和城乡建设局官方网站
web/
2025/9/26 12:31:24/
文章来源:
上传网站标志,唐山市住房和城乡建设局官方网站,容县网站建设,网站开发用了哪些知识要点前言
最近在学习Python爬虫的知识#xff0c;既然眼睛会了难免忍不住要实践一把。 不废话直接上主题
代码不复杂#xff0c;简单的例子奉上#xff1a;
import requests
from lxml import etreecookie 浏览器F12网络请求标头里有
user_agent 浏览器F12网络请求标头里有…前言
最近在学习Python爬虫的知识既然眼睛会了难免忍不住要实践一把。 不废话直接上主题
代码不复杂简单的例子奉上
import requests
from lxml import etreecookie 浏览器F12网络请求标头里有
user_agent 浏览器F12网络请求标头里有
# 具体的方法网上有很多这里不是叙述的重点headers {User-Agent: user_agent,Cookie: cookie,Host: fanqienovel.com,Connection: keep-alive
}url https://****# 使用get方法请求网页
resp requests.get(url, headersheaders)# 将网页内容按utf-8规范解码为文本形式
content resp.content.decode(utf-8)# 将文本内容创建为可解析元素
html etree.HTML(content)# 获取1
title1 html.xpath(//*[idapp]/div/div[2]/div/div[1]/div/div[2]/div[2]/div[1]/h1/text())[0]# 获取2
title2 html.xpath(//*[idapp]/div/div/div/div[1]/div/div[2]/div[2]/div[1]/h1/text())[0]“获取1”是页面打开后直接复制的XPath路径但根据这个路径获取不到数据见截图。 但content是有内容的参阅网上的方案都未决解但提供了思路。
是网站做了反爬虫处理复制的XPath不准确导致的想了个办法将content的内容复制到txt文档然后修改为html的后缀用浏览器打开在新的网页下重新复制XPath就得到了“获取2”的路径可以发现1和2路径是有差异的。
问题到这就解决了。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/81388.shtml
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!