python怎么爬取电影海报_python爬虫之通过BeautifulSoup获取豆瓣最新上映电影的海报...

0.目录

1.分析页面

2.初步代码

3.完整代码

4.总结

5.补充

1.分析页面

上一次我们讲了xpath获取豆瓣最新上映电影的海报,这一次会分析如何使用BeautifulSoup获取。启程:python爬虫之通过xpath获取豆瓣最新上映电影的海报​zhuanlan.zhihu.com

首先,进入豆瓣正在上映的页面,右键查看源代码,发现我们需要的海报url和电影名都在这个标签下面,根据上一次的经验,还需要添加范围< div id="nowplaying" >右键源代码

2.初步代码

# encoding: utf-8

from bs4 import BeautifulSoup

from urllib import request

import requests

def get_page(url):

headers = {

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36',

'Referer': 'https://movie.douban.com/',

}

response = requests.get(url, headers)

return response.text

def get_img(url):

text = get_page(url)

# 创建BeautifulSoup对象

soup = BeautifulSoup(text, 'lxml')

# 限制获取到的img标签在【正在上映】内

new = soup.find('div', {'id': "nowplaying"})

# 查找img标签

trs = new.find_all('img')

for tr in trs:

# 获取img标签下的src和alt

url_img = tr.attrs['src']

name = tr.attrs['alt']

print(name)

print(url_img)

def main():

url = 'https://movie.douban.com/cinema/nowplaying/guangzhou/'

get_img(url)

if __name__ == '__main__':

main()

展示运行结果的一部分:

3.完整代码

可以发现已经获取到了我们想要的数据,那么下一步就是根据url下载海报,并且用电影名来命名文件。在下载之前,还需要在该程序的所在目录建一个名为:images 的文件夹。

# encoding: utf-8

from bs4 import BeautifulSoup

from urllib import request

import requests

def get_page(url):

headers = {

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36',

'Referer': 'https://movie.douban.com/',

}

response = requests.get(url, headers)

return response.text

def get_img(url):

text = get_page(url)

# 创建BeautifulSoup对象

soup = BeautifulSoup(text, 'lxml')

# 限制获取到的img标签在【正在上映】内

new = soup.find('div', {'id': "nowplaying"})

# 查找img标签

trs = new.find_all('img')

fns_num = 1

num = len(trs)

for tr in trs:

# 获取img标签下的src和alt

url_img = tr.attrs['src']

name = tr.attrs['alt']

# 下载剧照

request.urlretrieve(url_img, 'images/' + name + '.jpg')

# 显示剧照下载的进度

print("\r完成进度: {:.2f}%".format(fns_num * 100 / num), end="")

fns_num += 1

def main():

url = 'https://movie.douban.com/cinema/nowplaying/guangzhou/'

get_img(url)

if __name__ == '__main__':

main()

展示运行结果的一部分:

4.总结

下一次会使用正则表达式来继续实践,还会分析xpath、BeautifulSoup和正则之间的区别。

如果你想获取评分,可以这样:

new = soup.find('div', {'id': "nowplaying"})

trs = new.find_all('li')

for tr in trs:

score = tr.attrs['data-score']

5.补充

当我们碰到

肖申克的救赎

xpath可以这样获取

title = tr.xpath(".//span[@class='title']/text()")[0]

BeautifulSoup可以这样获取

title = soup.find('span', {'class': "title"})

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/352008.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

switch使用中遇到的问题

switch分支语句中case判断不会进行隐式数据类型转换&#xff1b; 1 const fn (value) > {2 let str all;3 switch (value) {4 case :5 return all0;6 case 3:7 return all3;8 case 4:9 return all4;…

opencv读取视频并保存为图片

1.功能&#xff1a;opencv读取指定文件夹中的视频文件&#xff0c;按照一定的间隔截取某些帧&#xff0c;将这些帧图像连续命名&#xff0c;存储在指定文件夹里。 2.代码如下&#xff1a; &#xff08;1&#xff09;IplImage #include <stdlib.h> #include <stdio.h&g…

将Jython嵌入到您的Java代码库中

Jython是一个使用相当可靠的语法的快速Java脚本的好工具。 实际上&#xff0c;当使用jmx为您的Java应用程序实现一些维护或监视脚本时&#xff0c;它的运行效果非常好。 如果您与其他具有python背景的团队合作&#xff0c;则将python集成到您的java应用程序是绝对有意义的。 …

C语言的编译链接过程详解

学过C语言的人都应该知道&#xff0c;我们所编辑的C语言程序是不能直接放到机器上运行的&#xff0c;它只不过是一个带".c"后缀的文件&#xff08;也称为源代码&#xff09;而已&#xff0c;需要经过一定的处理才能转换成机器上可运行的可执行文件。我们将对C语言的这…

python 谷歌登录_用Python登录Gmail并发送Gmail邮件的教程

这篇快文介绍了使用Gmail作为您的e-mail服务器&#xff0c;通过Python的内置SMTP库发送电子邮件。它并不复杂&#xff0c;我保证。下面是如何在Python中登录GMail&#xff1a;import smtplib# The below code never changes, though obviously those variables need values.ses…

Linux wget命令详解

wget是一个下载文件的工具&#xff0c;它用在命令行下。对于Linux用户是必不可少的工具&#xff0c;我们经常要下载一些软件或从远程服务器恢复备份到本地服务器。 wget支持HTTP&#xff0c;HTTPS和FTP协议&#xff0c;可以使用HTTP代理。所谓的自动下载是指&#xff0c;wget可…

opencv连续读图

1.功能利用opencv连续读取指定文件夹中连续命名的图像&#xff0c;可以根据需要设置图像的命名间隔和图像的个数。 2.代码 #include <opencv2/core/core.hpp> #include <opencv2/highgui/highgui.hpp> #include <opencv2/imgproc/imgproc.hpp> int main(int …

在要求输入数字处找到非数字字符_剑指 Offer 67. 把字符串转换成整数 leetcode 剑指offer系列...

点击专辑上方“蓝字”关注我吧题目难度: 中等原题链接[1]今天继续更新剑指 offer 系列, 老样子晚上 6 点 45 分准时更新公众号 每日精选算法题, 大家记得关注哦~ 另外在公众号里回复 offer 就能看到剑指 offer 系列当前连载的所有文章了题目描述写一个函数 StrToInt&#xff0c…

旅行商问题的n种解法

问题描述&#xff1a; 旅行商问题&#xff08;Traveling Salesman Problem,TSP&#xff09;是旅行商要到若干个城市旅行&#xff0c;各城市之间的费用是已知的&#xff0c;为了节省费用&#xff0c;旅行商决定从所在城市出发&#xff0c;到每个城市旅行一次后返回初始城市&…

将字符串中的指定字符全局替换

// 将 str 中的 a 替换为 Avar str abcabcabc;var result str.replace(a, A);console.log(result: result); // 输出 result:Abcabcabc // 将str 中所有的 a 替换为 Avar str abcabcabc;var result str.replace(/a/g, A);console.log(result: result); // 输出 result:…

Lintcode--5(37)--反转一个三位数

1、题目反转一个只有3位数的整数。123 反转之后是 321。900 反转之后是 9。 2、我的解答 class Solution { public:/*** param number: A 3-digit number.* return: Reversed number.*/int reverseInteger(int number) {int num[3] {0};int result;num[1] number/100;num[2] …

java未检查异常_Java中已检查和未检查的异常

java未检查异常Java有两种类型的异常-已检查和未检查。 简而言之&#xff0c;选中的是指开发人员可以从异常中合理恢复的情况&#xff0c;而未选中的异常是无法处理的编程错误。 本文介绍了何时使用哪种。 但这不是那么简单–受检查的异常使代码变得“丑陋”。 它们迫使开发人员…

python清空列表clear_如何在Python中清空列表?

似乎很“肮脏”以这种方式清空列表&#xff1a;while len(alist) > 0 : alist.pop()是否存在明确的方法&#xff1f;#1楼list []将list重置为空列表。请注意&#xff0c;通常您不应list_保留的函数名称&#xff0c;例如list &#xff0c;它是列表对象的构造函数-例如&#…

linux shell 自定义函数(定义、返回值、变量作用域)介绍

linux shell 可以用户定义函数&#xff0c;然后在shell脚本中可以随便调用。下面说说它的定义方法&#xff0c;以及调用需要注意那些事项。 一、定义shell函数(define function) 语法&#xff1a; [ function ] funname [()] { action; [return int;] } 说明&#xff1a; …

Lintcode--6(767)--翻转数组

1、题目描述原地反转给定的数组&#xff0c;原地意味着你不能使用额外的空间。 2、AC程序 &#xff08;1&#xff09;利用C自带的函数 class Solution { public:void reverseArray(vector<int> &nums) {reverse(nums.begin(),nums.end());} }; &#xff08;2&#xf…

CPU时间分片、多线程、并发和并行

1、CPU时间分片、多线程&#xff1f; 如果线程数不多于CPU核心数&#xff0c;会把各个线程都分配一个核心&#xff0c;不需分片&#xff0c;而当线程数多于CPU核心数时才会分片。 2、并发和并行的区别 并发&#xff1a;当有多个线程在操作时,如果系统只有一个CPU,把CPU运行时间…

如何在Java中实现线程池

线程是独立程序的执行路径。 在java中&#xff0c;每个线程都扩展java.lang.Thread类或实现java.lang.Runnable。 多线程是指在一个任务中同时执行两个或多个线程。在多线程中&#xff0c;每个任务可以具有多个线程&#xff0c;并且这些线程可以异步或同步地并行运行。 您可以…

html选择按键点击后锁死输入框_js实现的键盘开启大写锁定提示和密码显示与隐藏的效果...

不知道大家注意到没有&#xff0c;很多人性话的网站再输入密码的时候&#xff0c;如果开启大写锁定下过(切换键A左边的Cap Lock按键)&#xff0c;那么就会给出一个提示&#xff0c;因为很多时候密码验证是区分大小写的&#xff0c;如果不小心开启或者关闭大小写就有可能导致输入…

vim ctags使用方法

windows下很多人都使用source insight 编写和查看代码。linux下可以使用VIM&#xff0c;刚开始会觉得VIM像windows下的记事本&#xff0c;而如果使用得当&#xff0c;它并不比source insight 逊色。在这里&#xff0c;我会尽我所能细致地讲清楚如何把vim变成source insight, 然…

MATLAB读取txt文件的数据

常用的主要有以下几种方法&#xff1a; 1、loadData load("filename.txt");该函数只能加载仅含有数字的文本文件&#xff0c;如果文档中夹杂着字母或者文字&#xff0c;就会报错。 2、importdataData importdata("filename.txt");既可以读取数据又可以读…