Python爬虫爬取美剧网站

一直有爱看美剧的习惯,一方面锻炼一下英语听力,一方面打发一下时间。之前是能在视频网站上面在线看的,可是自从广电总局的限制令之后,进口的美剧英剧等貌似就不在像以前一样同步更新了。

 

但是,作为一个宅diao的我又怎甘心没剧追呢,所以网上随便查了一下就找到一个能用迅雷下载的美剧下载网站【天天美剧】,各种资源随便下载,最近迷上的BBC的高清纪录片,大自然美得不要不要的。




虽说找到了资源网站可以下载了,但是每次都要打开浏览器,输入网址,找到该美剧,然后点击链接才能下载。时间长了就觉得过程好繁琐,而且有时候网站链接还会打不开,会有点麻烦。正好一直在学习Python爬虫,所以今天就心血来潮来写了个爬虫,抓取该网站上所有美剧链接,并保存在文本文档中,想要哪部剧就直接打开复制链接到迅雷就可以下载啦。

 

其实一开始打算写那种发现一个url,使用requests打开抓取下载链接,从主页开始爬完全站。但是,好多重复链接,还有其网站的url不是我想的那么规则,写了半天也没有写出我想要的那种发散式的爬虫,也许是自己火候还不到吧,继续努力。。。

 

后来发现,其电视剧链接都是在文章里面,然后文章url后面有个数字编号,就像这样的http://cn163.net/archives/24016/,所以机智的我又用了之前写过的爬虫经验,解决方法就是自动生成url,其后面的数字不是可以变的吗,而且每部剧的都是唯一的,所以尝试了一下大概有多少篇文章,然后用range函数直接连续生成数来构造url。

 

但是很多url是不存在的,所以会直接挂掉,别担心,我们用的可是requests,其自带的status_code就是用来判断请求返回的状态的,所以只要是返回的状态码是404的我们都把它跳过,其他的都进去爬取链接,这就解决了url的问题了。

 

以下就是上述步骤的实现代码。

def get_urls(self):   try:   for i in range(2015,25000):   base_url='http://cn163.net/archives/'   url=base_url+str(i)+'/'   if requests.get(url).status_code == 404:   continue   else:   self.save_links(url)   except Exception,e:   pass

其余的就进行的很顺利了,网上找到前人写的类似的爬虫,但是只是爬取一篇文章的,所以借鉴了一下其正则表达式。自己用了BeautifulSoup还没有正则效果好,所以果断弃了,学海无涯啊。但是效果也不是那么理想,有一半左右的链接不能正确抓取,还需继续优化。

 

#  -*- coding:utf-8 -*-   import requests    import re   
import sys   
import threading   
import time   
reload(sys)   
sys.setdefaultencoding('utf-8')   
class Archives(object):   def save_links(self,url):   try:   data=requests.get(url,timeout=3)   content=data.text   link_pat='"(ed2k://\|file\|[^"]+?\.(S\d+)(E\d+)[^"]+?1024X\d{3}[^"]+?)"'   name_pat=re.compile(r'<h2 class="entry_title">(.*?)</h2>',re.S)   links = set(re.findall(link_pat,content))   name=re.findall(name_pat,content)   links_dict = {}   count=len(links)   except Exception,e:   pass   for i in links:   links_dict[int(i[1][1:3]) * 100 + int(i[2][1:3])] = i#把剧集按s和e提取编号   try:   with open(name[0].replace('/',' ')+'.txt','w') as f:   print name[0]   for i in sorted(list(links_dict.keys())):#按季数+集数排序顺序写入   f.write(links_dict[i][0] + '\n')   print "Get links ... ", name[0], count   except Exception,e:   pass   def get_urls(self):   try:   for i in range(2015,25000):   base_url='http://cn163.net/archives/'   url=base_url+str(i)+'/'   if requests.get(url).status_code == 404:   continue   else:   self.save_links(url)   except Exception,e:   pass   def main(self):   thread1=threading.Thread(target=self.get_urls())   thread1.start()   thread1.join()   if __name__ == '__main__':   start=time.time()   a=Archives()   a.main()   end=time.time()   print end-start

完整版代码,其中还用到了多线程,但是感觉没什么用,因为Python的GIL的缘故吧,看似有两万多部剧,本以为要很长时间才能抓取完成,但是除去url错误的和没匹配到的,总共抓取时间20分钟不到。搞得我本来还想使用Redis在两台Linux上爬取,但是折腾了一番之后感觉没必要,所以就这样吧,后面需要更大数据的时候再去弄。

 

还有过程中遇到一个很折磨我的问题是文件名的保存,必须在此抱怨一下,txt文本格式的文件名能有空格,但是不能有斜线、反斜线、括号等。就是这个问题,一早上的时间都花在这上面的,一开始我以为是抓取数据的错误,后面查了半天才发现是爬取的剧名中带有斜杠,这可把我坑苦了。

转载于:https://www.cnblogs.com/paisenpython/p/10271854.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/425973.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

php 存储html 内容,HTML 本地存储

HTML 本地存储HTML 本地存储&#xff1a;优于 cookies。什么是 HTML 本地存储&#xff1f; ( 推荐学习&#xff1a;html教程 )通过本地存储(Local Storage)&#xff0c;web 应用程序能够在用户浏览器中对数据进行本地的存储。在 HTML5 之前&#xff0c;应用程序数据只能存储在 …

[Leedcode][JAVA][第55题][跳跃游戏][贪心][动态规划]

【问题描述】 给定一个非负整数数组&#xff0c;你最初位于数组的第一个位置。数组中的每个元素代表你在该位置可以跳跃的最大长度。判断你是否能够到达最后一个位置。示例 1:输入: [2,3,1,1,4] 输出: true 解释: 我们可以先跳 1 步&#xff0c;从位置 0 到达 位置 1, 然后再从…

java学习(165):inetaddress和inetsocketaddress

import java.net.InetAddress; import java.net.InetSocketAddress; import java.net.UnknownHostException;//inetaddress public class test112 {public static void main(String[] args){try {InetAddress add0 InetAddress.getLocalHost();//获取本机ip地址实例System.out…

如何删除oracle重复数据库,教你删除Oracle数据库中重复没用的数据

二、完全删除重复记录对于表中两行记录完全一样的情况&#xff0c;可以用下面语句获取到去掉重复数据后的记录&#xff1a;select distinct * from 表名可以将查询的记录放到暂时表中&#xff0c;然后再将原来的表记录删除&#xff0c;最初将暂时表的数据导回原来的表中。如下&…

java学习(166):socket服务端和客户端连接

socket服务端 import java.io.IOException; import java.net.ServerSocket; import java.net.Socket;//socket服务端 public class test114 {public static void main(String[] args){ServerSocket serverSocketnull;Socket clientnull;/*创建服务器套接字*/try {serverSocket…

[Leedcode][JAVA][第11题][盛最多水的容器][双指针][贪心]

【问题描述】11.盛最多水的容器 给你 n 个非负整数 a1&#xff0c;a2&#xff0c;...&#xff0c;an&#xff0c;每个数代表坐标中的一个点 (i, ai) 。在坐标内画 n 条垂直线&#xff0c;垂直线 i 的两个端点分别为 (i, ai) 和 (i, 0)。找出其中的两条线&#xff0c;使得它们与…

SAP S/4HANA使用ABAP获得生产订单的状态

在S/4HANA里&#xff0c;我们如何根据一个销售订单的行项目&#xff0c;查看对应的生产订单状态&#xff1f; 双击行项目&#xff1a; 点击Schedule line&#xff1a; 这里就能看到生产订单的ID和状态了。 其中订单的状态存储在表vsaufk里&#xff0c;注意订单和状态可以是1对多…

oracle 外部表 时间戳,Hive建立外部表与时间戳转换(含建dual表,修改列名,row_number() 函数等)...

建外部表&#xff0c;之前hadoop职位统计就是这么做的hive> drop table job;OKTime taken: 5.446 secondshive> show tables;OKTime taken: 0.018 secondshive> create external table job(area string, experience string, degree string,> num string, salary st…

http:(1):http简介

HTTP 简介 HTTP协议是Hyper Text Transfer Protocol&#xff08;超文本传输协议&#xff09;的缩写,是用于从万维网&#xff08;WWW:World Wide Web &#xff09;服务器传输超文本到本地浏览器的传送协议。。 HTTP是一个基于TCP/IP通信协议来传递数据&#xff08;HTML 文件, …

[Leedcode][JAVA][第466题][统计重复个数][数组]

【问题描述】466. 统计重复个数 由 n 个连接的字符串 s 组成字符串 S&#xff0c;记作 S [s,n]。例如&#xff0c;["abc",3]“abcabcabc”。如果我们可以从 s2 中删除某些字符使其变为 s1&#xff0c;则称字符串 s1 可以从字符串 s2 获得。例如&#xff0c;根据定义…

phantomJs原理

引用文段&#xff1a;链接&#xff1a;https://www.jianshu.com/p/0254391918f7 网页渲染可分为服务端渲染和客户端渲染&#xff0c;前者是指你在浏览器地址栏输入一个网址&#xff0c;Web服务器处理请求过程就将所有需要呈现的html元素都构造好了&#xff0c;浏览器收到响应就…

oracle t44,SecureFiles LOBs基础知识之存储篇

SecureFiles LOBs相比于BasicFilesLOBs具有加密(encryption)、去重(deduplicaiton)、压缩(compression)等新功能&#xff0c;pctversion&#xff0c;chunksize等参数也仅仅为了向后兼容而保留&#xff0c;因此SecureFiles LOBs的自适应能力更强&#xff0c;在管理上更为简化&am…

http:(2):http请求方法

HTTP 请求方法 根据 HTTP 标准&#xff0c;HTTP 请求可以使用多种请求方法。 HTTP1.0 定义了三种请求方法&#xff1a; GET, POST 和 HEAD方法。 HTTP1.1 新增了六种请求方法&#xff1a;OPTIONS、PUT、PATCH、DELETE、TRACE 和 CONNECT 方法。 序 号 方法 描述 1 GET …

[Leedcode][JAVA][第200题][岛屿数量][DFS][BFS][并查集]

【问题描述】 第200题 岛屿数量 给你一个由 1&#xff08;陆地&#xff09;和 0&#xff08;水&#xff09;组成的的二维网格&#xff0c;请你计算网格中岛屿的数量。岛屿总是被水包围&#xff0c;并且每座岛屿只能由水平方向和/或竖直方向上相邻的陆地连接形成。此外&#xf…

python闯关_Day012

day012 用python实现信息卡管理及购物商城的项目 需求 #需求: 1 这是一个信用卡管理程序 2 用户手持信用卡购物&#xff0c;使用函数&#xff0c;按照软件开发规范 3 用户名密码存放于文件中&#xff0c;支持多用户登陆&#xff0c;使用json 4 程序启动&#xff0c;先登录或者…

http:(3):http响应头信息

HTTP 响应头信息 HTTP请求头提供了关于请求&#xff0c;响应或者其他的发送实体的信息。 在本章节中我们将具体来介绍HTTP响应头信息。 应答头 说明 Allow 服务器支持哪些请求方法&#xff08;如GET、POST等&#xff09;。 Content-Encoding 文档的编码&#xff08;En…

php 强制刷新一次,强制浏览器使用PHP刷新所有内容

一个问题&#xff0c;特别是在创建AJAX应用程序时&#xff0c;是浏览器可以缓存页面的内容&#xff0c;以便在发出类似请求时&#xff0c;可以呈现相同的内容。要强制浏览器显示所需内容而不进行缓存&#xff0c;可以在页面中添加以下标题。header("HTTP/1.1 202 Accepted…

[Leedcode][JAVA][第1248题][统计「优美子数组][找规律]

【问题描述】 1248. 统计「优美子数组」 给你一个整数数组 nums 和一个整数 k。如果某个 连续 子数组中恰好有 k 个奇数数字&#xff0c;我们就认为这个子数组是「优美子数组」。请返回这个数组中「优美子数组」的数目。 示例 1&#xff1a;输入&#xff1a;nums [1,1,2,1,1]…

[ubuntu setting]Change system language

1.Open the software "语言支持". ​ 2.Then select "English" lauguage, an apply to whole system. ​ 3.reboot system. [end]转载于:https://www.cnblogs.com/lizhuohui/p/10274356.html

http:(4):http请求方法

HTTP 消息结构 HTTP是基于客户端/服务端&#xff08;C/S&#xff09;的架构模型&#xff0c;通过一个可靠的链接来交换信息&#xff0c;是一个无状态的请求/响应协议。 一个HTTP"客户端"是一个应用程序&#xff08;Web浏览器或其他任何客户端&#xff09;&#xff…