上传网站标志唐山市住房和城乡建设局官方网站

web/2025/9/26 12:31:24/文章来源:

上传网站标志,唐山市住房和城乡建设局官方网站,容县网站建设,网站开发用了哪些知识要点前言最近在学习Python爬虫的知识#xff0c;既然眼睛会了难免忍不住要实践一把。不废话直接上主题代码不复杂#xff0c;简单的例子奉上#xff1a; import requests from lxml import etreecookie 浏览器F12网络请求标头里有 user_agent 浏览器F12网络请求标头里有…前言最近在学习Python爬虫的知识既然眼睛会了难免忍不住要实践一把。不废话直接上主题代码不复杂简单的例子奉上 import requests from lxml import etreecookie 浏览器F12网络请求标头里有 user_agent 浏览器F12网络请求标头里有 # 具体的方法网上有很多这里不是叙述的重点headers {User-Agent: user_agent,Cookie: cookie,Host: fanqienovel.com,Connection: keep-alive }url https://****# 使用get方法请求网页 resp requests.get(url, headersheaders)# 将网页内容按utf-8规范解码为文本形式 content resp.content.decode(utf-8)# 将文本内容创建为可解析元素 html etree.HTML(content)# 获取1 title1 html.xpath(//*[idapp]/div/div[2]/div/div[1]/div/div[2]/div[2]/div[1]/h1/text())[0]# 获取2 title2 html.xpath(//*[idapp]/div/div/div/div[1]/div/div[2]/div[2]/div[1]/h1/text())[0]“获取1”是页面打开后直接复制的XPath路径但根据这个路径获取不到数据见截图。但content是有内容的参阅网上的方案都未决解但提供了思路。是网站做了反爬虫处理复制的XPath不准确导致的想了个办法将content的内容复制到txt文档然后修改为html的后缀用浏览器打开在新的网页下重新复制XPath就得到了“获取2”的路径可以发现1和2路径是有差异的。问题到这就解决了。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/web/81388.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！