服务器和网站维护太原注册公司网站
news/
2025/10/3 10:15:52/
文章来源:
服务器和网站维护,太原注册公司网站,纷享销客crm管理系统,lnmp wordpress 登陆目录 一、安装XPath
二、XPath的基础语法 1.选取节点
三、使用XPath匹配数据
1.浏览器审查元素
2.具体实例
四、总结 一、安装XPath 控制台输入指令#xff1a;pip install lxml 二、XPath的基础语法 XPath是一种在XML文档中查找信息的语言#xff0c;可以使用它在HTM…目录 一、安装XPath
二、XPath的基础语法 1.选取节点
三、使用XPath匹配数据
1.浏览器审查元素
2.具体实例
四、总结 一、安装XPath 控制台输入指令pip install lxml 二、XPath的基础语法 XPath是一种在XML文档中查找信息的语言可以使用它在HTML源代码文档中通过元素、属性等方式进行查找和提取数据。 1.选取节点
表达式描述nodename 选取此元素的所有子元素。 例div选取div下所有子元素。 / 从根节点选取子节点。 例/div选取根元素div //从匹配选择的当前元素下选择文档中的元素而不考虑它们在文档中的位置。.选取当前元素。..选取父元素。选取属性。
例XPath的常用语法格式
ul//li
#选取ul下所有li子元素而不管它们在文档的位置。
//class
# 选取所有具有class属性的元素
ul//li[1]
# 选取ul元素下第一个li子元素
//div[idt2]
# 选取id属性为t2的所有div元素
//li[classit]
#选取class属性为it的li子元素
/div/ul/li[classit]
# 选取根元素div下ul元素下的class属性等于it的li子元素
三、使用XPath匹配数据
1.浏览器审查元素 上文初步了解了XPath的语法这里介绍一个技巧无需我们自己写XPath使用浏览器自带工具即可自动生成XPath。 第一步打开要爬取的网页 以机场三字代码查询系统_机场代码 (6qt.net)为例 按下F12显示以下界面。 第二步 点击审查元素按钮 第三步在左侧选取要爬取的内容 2.具体实例
实例一根据class属性进行匹配 获取标签文本使用text() 。 from lxml import html
import requests
urlhttp://www.6qt.net
resrequests.get(url)
res.encodinggb2312
data_htmlhtml.fromstring(res.text)
# 将网络请求返回的文本res.text转换为一个HTML文档对象
name_listdata_html.xpath(//tr[classtdbg]//td[1]/a/text())
for x in name_list:print(x)
运行结果 实例二根据id属性进行匹配 获取标签属性值使用属性名以下案例获取了属性title值title 。 from lxml import html
import requests
urlhttp://www.6qt.net
resrequests.get(url)
res.encodinggb2312
data_htmlhtml.fromstring(res.text)
# 将网络请求返回的文本res.text转换为一个HTML文档对象
name_listdata_html.xpath(//div[idlogo]/a/title)
for x in name_list:print(x)
运行结果 实例三根据name属性进行匹配 获取了meta标签的content属性 from lxml import html
import requests
urlhttp://www.6qt.net
resrequests.get(url)
res.encodinggb2312
data_htmlhtml.fromstring(res.text)
# 将网络请求返回的文本res.text转换为一个HTML文档对象
name_listdata_html.xpath(/html/head/meta[nameKeywords]/content)
for x in name_list:print(x)
运行结果 四、总结 爬虫是一个自动化获取网页数据的工具其使用关键在于会分析HTML文档结构使用正确的Xpath匹配数据才能获取到想要的内容所见即所得。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/925766.shtml
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!