beautifulsoup网页爬虫解析_Python爬虫神器:PyQuery,解析网页更简单,小白也能学会

图/文:迷神

我们做python爬虫,通过requests抓取到内容就需要正则匹配,或者其他解析库解析内容。很多可能和我一样的人,都使用jquery的,那用的还是非常爽的。而pyquery库就是jQuery的Python实现,能够以jQuery的语法来操作解析 HTML 文档,易用性和解析速度都不错。

虽然,Beautiful Soup 中可以使用 CSS 选择器,但是好像他的 CSS 选择器并没有想像中的强大,PyQuery反而更优一些,因此,我们来说说,Python爬虫神器:PyQuery。

f19dd73135722dc727df5d461e58a510.png

PyQuery库官方文档

官方文档:https://pyquery.readthedocs.io/en/latest/

PyPI:https://pypi.org/project/pyquery/

Github:https://github.com/gawel/pyquery

1、PyQuery初始化内容

PyQuery初始化有3种形式:

1.1、直接初始化requests返回的html内容

from pyquery import PyQuery as pq#初始化为PyQuery对象doc = pq(html)print(type(doc))print(doc)

1.2、直接读取文件的形式

#filename参数为html文件路径doc = pq(filename = 'test.html')print(type(doc))print(doc)

1.3、读取网址的形式

doc = pq(url = 'https://www.toutiao.com')print(type(doc))print(doc)

2、常用CSS选择器:

pyquery强大的地方,就是在于使用了类似jquery一样的选择,进行网页节点解析。

html = """        
Python 大法 好 """

获取id为object-1的标签

print(doc('#object-1'))#返回:好#还可以:print(doc('#container #object-1'))

获取class为object-1的标签

print(doc('.object-1'))#返回:Python

获取ul标签:

print(doc('ul'))#返回
Python大法好

如果获取多个li,可以遍历:

a = doc('li')for item in a.items():    print(item)

其他的我们还可以查找节点

我们接着介绍一下常用的查找函数,这些查找函数最赞的地方就是它们和 JQuery 的用法完全一致。

find() : 查找节点的所有子孙节点。

children() : 只查找子节点。

parent() : 查找父节点。

parents() : 查找祖先节点。

siblings() : 查找兄弟节点。

3、获取标签的信息

我们在定位到目标之后,就需要获取标签的内容信息,常用的有:

3.1、attr() 获取属性,返回属性值

object_2 = doc.find('.object-2')print(object_2.attr('class'))#返回object-2

3.2、text() 标签的文本

object_1 = docs.find('.object-1')print(object_1.text())#返回Python

当然pyquery还有很多,比如remove去掉节点内容,获取url网址的,还可以自定义cookie和header等。

Beautiful Soup 对新手比较友好,pyquery对用过jquery的来说,更简单更方便,是一个非常不错的选择。

好了,就这么多啦,我是迷神,更多精彩python内容,可以关注我哦,有问题也可以评论哦。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/433755.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ubuntu设置始终亮屏_ubuntu系统每次启动屏幕都是最大亮度问题的解决方法

这个方法你尝试过没首先你要确保有这个文件:复制代码代码如下:/sys/class/backlight/acpi_video0/brightnesscat出来的值就是你当前的屏幕亮度.我们修改下面的文件加入一些用户启动设置:复制代码代码如下:sudo gedit /etc/rc.local在 exit 0 的上方加入以下代码(确保exit 0没有…

unityios开发--加载视频以及加载完成之后自动跳转 .

在做游戏或者是虚拟漫游一般都会用到在开始的时候加载一段视频,这个视频可能一个介绍整个游戏或者是整个项目的。在加载完了之后自动的跳转到主画面或一个场景,在前在网上百度了一下找到的大部分都是win的好不容易找到了ios的。 Unity3D中播放游戏视频的…

rnn神经网络模型_一文读懂序列建模(deeplearning.ai)之循环神经网络(RNNs)

作者:Pulkit Sharma,2019年1月21日翻译:陈之炎校对:丁楠雅本文为你详细介绍序列模型,并分析其在不同的真实场景中的应用。简介如何预测一个序列中接下来要发生什么事情是一个非常吸引人的课题,这是我对数据…

mysql 人名用什么类型_如何选择合适的MySQL数据类型

一、MySQL数据类型选择原则更小的通常更好:一般情况下选择可以正确存储数据的最小数据类型。越小的数据类型通常更快,占用磁盘,内存和CPU缓存更小。简单就好:简单的数据类型的操作通常需要更少的CPU周期。例如:整型比字…

am335x uart5配置

任务:配置uart5

XML Schema ---complexType-----复合元素

混合的复合类型可包含属性、元素以及文本。 带有混合内容的复合类型 XML 元素&#xff0c;"letter"&#xff0c;含有文本以及其他元素&#xff1a; <letter>Dear Mr.<name>John Smith</name>.Your order <orderid>1032</orderid>will …

Java笔记(一)—StringBuilder类

1、StringBuilder类概述 StringBuilder是一个可变的字符串类&#xff0c;主要指的是StringBuilder对象 中的内容是可变的。与之相比String对象的内容是不变的。2、StringBuilder常用构造方法 public StringBuilder() {} //创建空白可变字符串 public StringBuilder(String st…

ubuntu下制作u盘镜像_deepin下制作win10启动U盘

1.准备①下载multibootusb&#xff1a;http://multibootusb.org/page_download/ ②准备一个win10的镜像文件 ③准备一个U盘&#xff0c;最好先备份U盘数据再格式化一道2.打开multibootusb工具输入开机密码&#xff0c;点击认证3.multibootusb操作部分①选择U盘的第一个分区 ②安…

Shared_from_this 几个值得注意的地方

shared_from_this()是enable_shared_from_this<T>的成员 函数&#xff0c;返回shared_ptr<T>。首先需要注意的是&#xff0c;这个函数仅在shared_ptr<T>的构造函数被调用之后才能使 用。原因是enable_shared_from_this::weak_ptr并不在构造函数中设置&#x…

asterisk1.8 账号信息mysql存储(动态)

1. 首先需要先编译出以下6个模块 res_realtime.so pbx_realtime.so func_realtime.so res_config_mysql.so app_mysql.so cdr_mysql.so 其中有些模块&#xff0c;asterisk默认并不编译&#xff0c;需要修改menuselect.makeopts这个文件&#xff0c;将里面的相应…

签证上的mult是什么意思_申根签证中mult是什么意思

展开全部申根签证中mult是是多次的意思&#xff0c;指可以在有效期内多次往返申根国家。类型申根签证分62616964757a686964616fe78988e69d8331333431373939为入境和过境两类。1.入境签证有一次入境和多次入境两种。签证持有者分别可一次连续停留90天或每半年多次累计不超过3个月…

Java拆分字符串

1、例如给出如下字符串"91 27 46 38 50"如何将其拆分成{"91", "27", "46", "38", "50"}呢&#xff1f;2、我们可以通过String类中的public String[] split(String regex)方法来实现String s "91 27 46 38 5…

Perl正则表达式匹配

\w([-.]\w)*((aa.com)|(bb.com)|(163.com)) 这个正则表达式可实现匹配含有aa.com或bb.com或163.com 的email 转载于:https://www.cnblogs.com/inbase/archive/2013/04/01/2994479.html

大数据翻页_大数据量下的分页解决方法

最好的办法是利用sql语句进行分页&#xff0c;这样每次查询出的结果集中就只包含某页的数据内容。再sql语句无法实现分页的情况下&#xff0c;可以考虑对大的结果集通过游标定位方式来获取某页的数据。sql语句分页&#xff0c;不同的数据库下的分页方案各不一样&#xff0c;下面…

centos7 安装git_Centos7.4 Yapi 服务搭建

Centos Yapi服务搭建转载请标明原文出处参考以下网址&#xff0c;排名不分先后https://github.com/YMFE/yapihttps://blog.csdn.net/guangzhou007_java/article/details/90779222https://www.jianshu.com/p/994bc7b19b26我的服务器环境阿里云服务器 centos 7.4使用 https://one…

asterisk使用MYSQL认证的配置方法

asterisk要使用MYSQL实时认证peers&#xff0c;就必须安装asterisk的realtime 和 mysql 模块&#xff0c;这些模块在asterisk插件包中 下载地址是&#xff1a;http://www.asterisk.org/downloads 下载之后./configure 然后sudo make &&sudo make install && …

Java笔记—字符缓冲流

一、字符缓冲流构造方法简述 BufferedReader&#xff1a;从字符输入流中读取文本&#xff0c;缓冲各个字符&#xff0c;从而实现字符、 数组和行的高效读取。 可以指定缓冲区的大小&#xff0c;或者可使用默认的大小。大 多数情况下&#xff0c;默认值就足够大了。构造方法&am…

手机来电秀怎么开启_360手机卫士怎么设置来电秀 360手机卫士来电秀设置方法...

360手机卫士除了防护等安全功能外&#xff0c;它的来电秀也是比较火热的&#xff0c;很多朋友都喜欢在这里设置自己别具个性的来电秀&#xff0c;这篇文章就一起了解一下360手机卫士怎么设置来电秀。360手机卫士来电秀设置是在【隐私保护】中&#xff0c;所以很多朋友都没找到在…

SqlServer查询语句中用到的锁

前段时间**公司DBA来我们这培训。讲了一大堆MYSQL的优化。 QA环节一程序员问“SQL语句中的 with nolock 除了不锁表外,是否能读其他锁住的数据"。 讲课的人嘟嘟了半天没解释清楚&#xff08;有可能是MYSQL里没有这个机制&#xff09;&#xff0c;公司的另一程序员给出了一…

python中execute函数_Python中的函数定义与参数使用

本节知识点&#xff1a;(1)函数定义格式&#xff1b;(2)五种参数使用函数定义 基本语法格式def function_name( parameter_list ): return values函数通常为小写英语单词及其组合&#xff0c;以下划线隔开&#xff0c;例如&#xff1a;sum、mean、cost_calculat…