Python爬虫相关案例汇总

一、简述

将之前所做的爬虫案例放出,方便查阅,对代码整合函数内容并不进行说明。

二、代码

import time
from concurrent.futures import ThreadPoolExecutorimport requests
import re
import csv
from bs4 import BeautifulSoup
import os
from lxml import etreedef top250():
#re实例1for a in range(0,250,25):url="https://movie.douban.com/top250?start={0}".format(a)#print(url)headers={"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.131 Safari/537.36 SLBrowser/8.0.0.3161 SLBChan/25"}resp = requests.get(url,headers=headers)#get模式带UA防反爬page_content=resp.textobj=re.compile(r'<li>.*?<em class="">(?P<ranking>.*?)</em>'r'.*?<span class="title">(?P<name>.*?)</span>.*?'r'.*?<br>(?P<year>.*?)&nbsp.*?'r'.*?<span class="rating_num" property="v:average">(?P<score>.*?)</span>'r'.*?<span>(?P<number>.*?)</span>',re.S)result= obj.finditer(page_content)f=open("DoubanTop250.csv",mode="a")csvwriter=csv.writer(f)for i in result:# print("排名:{0}; 电影名:{1}; 年份:{2}; 评分:{3} ".format(#     i.group("ranking"),#     i.group("name"),#     i.group("year").strip(),#     i.group("score"))#       )dic=i.groupdict()dic['year']=dic['year'].strip()csvwriter.writerow(dic.values())f.close()time.sleep(2)#多个页面采用时延防反爬,不然ip会被ban掉print("收集到{0}个信息".format(a+25))def MovieDownload():
#re实例2domain ="https://dytt89.com/"resp = requests.get(domain,verify=False)#get中特殊的verify=False处理resp.encoding='gbk'#国标语言#print(resp.text)f = open("Dytt2022新片精品电影下载地址.csv", mode="a")csvwriter = csv.writer(f)obj1=re.compile(r'2022新片精品.*?'r'<ul>(?P<ul>.*?)</ul>',re.S)obj2=re.compile(r'''<li><a href='(?P<href>.*?)' title="''',re.S)obj3=re.compile(r'<div class="title_all"><h1>(?P<movie>.*?)</h1></div>.*?'r'<td style="WORD-WRAP: break-word" bgcolor="#fdfddf">'r'<a href="(?P<download>.*?)">',re.S)child_href_list=[]result1=obj1.finditer(resp.text)for i in result1:#第一层————获取主页面代码ul=i.group('ul')#print(ul)#time.sleep(1)result2=obj2.finditer(ul)for j in result2:#第二层————获取进入后的代码#time.sleep(1)child_href=domain+j.group('href').strip("/")#主页面代码与子页面的特殊部分拼接child_href_list.append(child_href)k=0for href in child_href_list:child_resp=requests.get(href,verify=False)child_resp.encoding='gbk'result3=obj3.search(child_resp.text)#获取所需的下载内容#print(result3.group('movie'))#print(result3.group('download'))dic = result3.groupdict()csvwriter.writerow(dic.values())k=k+1#计数print("已收集到{0}个电影".format(k))f.close()def VegetableValue():#POST实例url = "http://www.xinfadi.com.cn/getPriceData.html"#由于页面源代码没有数据,所以F12用抓包工具获取到数据的链接使用即可head = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.131 Safari/537.36 SLBrowser/8.0.0.3161 SLBChan/25"}f = open("菜价.csv", mode="a")csvwriter = csv.writer(f)data = {'limit': 3}  # 所要统计的数据数量#get和post获取数据的区别#get只能直接获取当前页面内所有资源#post可以控制所要获取的资源数量data#resp = requests.get(url, headers=head).json()resp = requests.post(url, headers=head, data=data).json()lis = resp.get('list')for i in lis:name = i.get("prodName")low_price = i.get("lowPrice")high_price = i.get("highPrice")average_price = i.get("avgPrice")producing_area = i.get("place")unit = i.get("unitInfo")date = i.get("pubDate")csvwriter.writerow([name,low_price,high_price,average_price,producing_area,unit,date])f.close()def CatchPicture(url):#bs4实例url_download = "https://pic.netbian.com/"resp = requests.get(url)resp.encoding="gbk"#print(resp.text)main_page=BeautifulSoup(resp.text,"html.parser")alist=main_page.find("div",class_="slist").find_all("a")#print(alist)for a in alist:#print(a.get('href'))href = url_download + a.get('href').strip("/")  # 主页面代码与子页面的特殊部分拼接#print(href)child_page_resp=requests.get(href)child_page_resp.encoding='gbk'child_page_text=child_page_resp.textchild_page=BeautifulSoup(child_page_text,"html.parser")img = child_page.find("div",class_="photo").find("img")img_name= child_page.find("div",class_="photo").find("img").get("title")#print(img.get("src"))src=url_download+img.get("src").strip("/")#print(src)#print(img_name)img_resp=requests.get(src)img = img_resp.content#拿到字节with open("img2/"+img_name+".jpeg",mode="wb")as f:f.write(img)print(img_name+"下载好了!!")#breaktime.sleep(0.5)#防反爬必要时延def Xpath():#网站不知道为啥总是返回空列表找不到数据,但是自己做的html却很轻松能访问到节点目标tree = etree.parse('file:///C:/Users/86183/Desktop/1.html')r1 = tree.xpath('/html/body/div[2]/p')  # 直接从上往下挨着找节点# /html/body/div[2]/p[1]for div in r1:# /html/body/div[2]/p[1]a = div.xpath('./text()')print(a)#浏览器中的console调用xpath的基本格式:$x("xpath表达式"),若格式正确则返回值,错误则无def Vidio():#梨视频防盗链破解url = "https://www.pearvideo.com/video_1733893"#拉取视频地址contId = url.split("_")[1]#拿到1733893resp = requests.get(url)resp.encoding="utf-8"#print(resp.text)main_page = BeautifulSoup(resp.text,"html.parser")title = main_page.find("div",class_="box-left clear-mar").find("h1").text#print(title)header = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.131 Safari/537.36 SLBrowser/8.0.0.3161 SLBChan/25"# referer防盗链:溯源,访问顺序必须是1->2->3,所以加个referer模拟该状态;若是只有1->3则失效,"Referer": url}vidio_status = f"https://www.pearvideo.com/videoStatus.jsp?contId={contId}&mrd=0.5623242368176109"resp = requests.get(vidio_status,headers=header)#print(resp.text)dic = resp.json()#print(dic)srcUrl = dic["videoInfo"]["videos"]['srcUrl']systemTime = dic['systemTime']#systemTime:1660186591481# 假:https://video.pearvideo.com/mp4/adshort/20210701/1660186531481-15708981_adpkg-ad_hd.mp4# 真:https://video.pearvideo.com/mp4/adshort/20210701/cont-1733893-15708981_adpkg-ad_hd.mp4srcUrl_true=srcUrl.replace(systemTime,f"cont-{contId}")#将两个链接不同处对比替换掉旧链接的无用部分#print(srcUrl_true)with open("videos/"+title+".mp4",mode= "wb")as f:f.write(requests.get(srcUrl_true).content)print(title+"下载完成!")def aiodownload(cid,title,book):url = f"https://www.23qb.com/book/{cid}.html"page = 1with open(f"novels/{book}.txt", mode="a+") as f:f.write("\n")f.write("\n"+title+"\n")f.write("\n")while True:resp = requests.get(url).textpage_thing = BeautifulSoup(resp.replace('\ufffd', ''), "html.parser")lists = page_thing.find_all("div", class_="read-content")for texts in lists:text = texts.find_all('p')del text[-1]if text[-1].string == "(继续下一页)":del text[-1]page = page+1url = f"https://www.23qb.com/book/{cid}_{page}.html"for line in text:txt = line.stringtry:f.write(txt+"\n")except Exception as e:f.write("!!!!!!!!"+"\n")continuecontinueelse:for line in text:txt = line.stringtry:f.write(txt + "\n")except Exception as e:f.write("!!!!!!!!" + "\n")continuebreakprint(title + "下载完成")def getCatalog(url):resp = requests.get(url)#print(resp.text)obj1 = re.compile(r'<meta property="og:novel:book_name" content="(?P<book>.*?)"/>.*?'r'<ul class="chaw_c" id="chapterList">(?P<url>.*?)</ul>',re.S)obj2 = re.compile(r'<li><a href="/book/(?P<c_id>.*?).html">(?P<name>.*?).</a></li>',re.S)main_page = resp.textresult = obj1.finditer(main_page)for i in result:ul = i.group('url')book = i.group("book")#print(ul)result2= obj2.finditer(ul)for ii in result2:cid=ii.group("c_id")title = ii.group("name")aiodownload(cid,title,book)print(book+"下载完成!")if __name__ == '__main__':#top250()#MovieDownload()#VegetableValue()#   CatchPicture主函数'''start_time = time.time()with ThreadPoolExecutor(10) as t:#这里只开启了20个线程,可以更多for i in range (2,119):t.submit(CatchPicture,f"https://pic.netbian.com/4kdongman/index_{i}.html")time.sleep(1)#多线程记得时延防止反爬禁ip(已经被网站禁了四个ip了谢邀)print(f"第{i}页内容下载完毕")#如果控制台只显示此内容,则说明ip已经被网站反爬print("全部下载完毕")end_time = time.time()print('总共的时间为:', round(end_time - start_time, 2), '秒')'''# Xpath()#Vidio()# 小说下载start_time = time.time()b_id = "116418" #input("输入你想下载的书的id:")#"60218","27309","4286","719","189697"url  =f"https://www.23qb.com/book/{b_id}/"getCatalog(url)end_time = time.time()print("下载时间为:", round(end_time - start_time, 2), '秒')

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/2261.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Go新手速成-string

1string类型 byte就是unit8 rune就是int32 都可以代表字符型&#xff0c;但是必须格式化打印&#xff0c;要不然打印出来就是ASC码&#xff0c;参考c语言 //字符处理的细节&#xff0c;如果是英文意味着比较短&#xff0c;可以用byte来实现&#xff0c;//如果是汉字就可以用…

2023最新版本Activiti7系列-事件篇

事件篇 事件&#xff08;event&#xff09;通常用于为流程生命周期中发生的事情建模。事件总是图形化为圆圈。在BPMN 2.0中&#xff0c;有两种主要的事件分类&#xff1a;*捕获&#xff08;catching&#xff09;与抛出&#xff08;throwing&#xff09;*事件。 捕获: 当流程执…

文件共享服务器

文章目录 一、共享服务器概述二、创建共享三、访问共享四、创建隐藏的共享五、访问隐藏共享的方法六、共享相关命令七、屏蔽系统隐藏共享自动产生1. 打开注册表2. 定位共享注册表位置 八、查看本地网络连接状态&#xff08;查看开放端口&#xff09;九、关闭445服务 一、共享服…

数据结构问答1

1. 当数据采用链式存储结构时,要求————? 答:每个节点占用一片连续的存储区域 2. 简述数据与数据元素的关系与区别? 答: 关系: 凡是能输入到计算机并被计算机识别和处理的对象集合都称为数据,数据是一个集合。数据元素是数据的基本单位,在计算机程序中通常作为…

List迭代器是如何实现的

我们知道当我们使用vector的迭代器时,它的操作可以让它指向下一个位置,解引用操作就可以找到这个位置的值,因为vector底层时用的一个顺序表,可以支持随机访问。对比list来说vector底层的迭代器是十分的简便可观的。虽然我们使用list的迭代器外观上和vector是大同小异的&#xf…

怎么使用PHP实现Memcached数据库负载均衡

一、什么是Memcached Memcached是一种高速缓存系统&#xff0c;通常用于缓存常用的查询结果、对象、页面数据等&#xff0c;以避免重复查询数据库&#xff0c;加快数据读取速度。Memcached支持分布式架构&#xff0c;通过多个节点共同协作来提高读写性能&#xff0c;可用于实现…

uniapp离线引入阿里巴巴图标

阿里巴巴图标地址 1.添加图标到购物车 2.点击购物车进入项目 3.下载到本地 4.解压后文件目录 5.放入项目目录中(比如说我经常放在common或者static下icon中) 6.在main.ts或者main.js中引入&#xff08;注意路径&#xff0c;用相对的也行&#xff09; import /static/iconfon…

超细,设计一个“完美“的测试用例,用户登录模块实例...

目录&#xff1a;导读 前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结&#xff08;尾部小惊喜&#xff09; 前言 好的测试用例一定…

Postman接口测试之POST、GET请求方法

http://t.csdn.cn/h4A3u 记录一下教程 接口测试之Postman使用全图文指南(原来使用Postman测试API接口如此简单)_postman怎么测接口_软测小生的博客-CSDN博客

java项目之足球赛会管理系统(ssm+mysql+jsp)

风定落花生&#xff0c;歌声逐流水&#xff0c;大家好我是风歌&#xff0c;混迹在java圈的辛苦码农。今天要和大家聊的是一款基于ssm的足球赛会管理系统。技术交流和部署相关看文章末尾&#xff01; 项目地址&#xff1a; https://download.csdn.net/download/sinat_26552841…

react组件多次渲染问题

问题背景 在数据没有发生变化的情况下React组件会进行数次重复渲染&#xff0c;绘制出来完全相同的两个图 排查思路 寻找子组件重渲染原因实验 测试一&#xff1a;在子组件的props未发生任何变更的情况下是否会发生重新渲染 import React, { useState } from "react&…

C++中重载下标运算符[]

C中重载下标运算符[] 表示容器的类通常可以通过元素在容器中的位置访问元素&#xff0c;这些类一般会定义下标运算符 operator[]。 下标运算符必须是成员函数为了与下标的原始定义兼容&#xff0c;下标运算符通常以所访问元素的引用作为返回值&#xff0c;这样做的好处是下标…

C#安装.Net平台科学计算库Math.Net Numerics

工作的时候需要使用到C#的Math.Net库来进行计算。 Math.Net库涵盖的主题包括特殊函数&#xff0c;线性代数&#xff0c;概率模型&#xff0c;随机数&#xff0c;插值&#xff0c;积分&#xff0c;回归&#xff0c;优化问题等。 这里记录一下&#xff0c;安装Math.Net库的过程…

Vim的常用指令

起因 在很早以前&#xff0c;大家想在windows里面使用linux大多都是通过装双系统或者virtual box还是vmware的虚拟机搞起来的&#xff0c;但是随着docker和k8s这些容器技术的发展和windows自己提供的wsl2&#xff0c;接下去&#xff0c;已经很少有人使用虚拟机了。但是容器机器…

Hugging Face开源库accelerate详解

官网&#xff1a;https://huggingface.co/docs/accelerate/package_reference/accelerator Accelerate使用步骤 初始化accelerate对象accelerator Accelerator()调用prepare方法对model、dataloader、optimizer、lr_schedluer进行预处理删除掉代码中关于gpu的操作&#xff0…

【C++ 重要知识点总结】表达式

表达式 1 基础 组合运算 优先级结合律 类型转换 运算符重载 左值和右值 2 算数运算符 3 逻辑和关系运算法 短路求值 逻辑与&#xff0c;当第一个判定为否的时候&#xff0c;不再执行第二个判定&#xff0c;可以用来屏蔽第二步的计算&#xff0c;代替条件判断&#xff0…

String类

String类 String类是Java中的字符串类型,它是引用类型 三种常用的字符串构造 public class Test {public static void main(String[] args){String str1 "hello";String str2 new String("hello");char[] array {h,e,l,l,o};String str3 new String(…

【Rust 基础篇】Rust 树形结构:实现与应用

导言 树形结构是计算机科学中一种常见的数据结构&#xff0c;它具有层级结构和递归特性。在 Rust 中&#xff0c;我们可以使用结构体和枚举等语言特性来定义树形结构&#xff0c;并通过引用和所有权等机制有效地管理数据。本篇博客将详细介绍 Rust 中树形结构的实现和应用&…

云计算——虚拟化层架构

作者简介&#xff1a;一名云计算网络运维人员、每天分享网络与运维的技术与干货。 座右铭&#xff1a;低头赶路&#xff0c;敬事如仪 个人主页&#xff1a;网络豆的主页​​​​​ 前言 本章将会讲解云计算的虚拟化层架构&#xff0c;了解云计算虚拟化层都有哪些架构模式…

WPF嵌入外部exe应用程序-实现基本的嵌入

WPF嵌入外部exe应用程序 使用场景功能实现嵌入基本功能实现1.导入windows API2.运行外部程序3. 获取窗体句柄4. 嵌入窗体5.设置子窗体位置整个代码 嵌入存在的问题&#xff1a; 使用场景 在WPF桌面应用程序开发过程中&#xff0c;有时候需要将其他程序结合到一起&#xff0c;让…