Python爬虫完整代码拿走不谢

对于新手做Python爬虫来说是有点难处的,前期练习的时候可以直接套用模板,这样省时省力还很方便。

使用Python爬取某网站的相关数据,并保存到同目录下Excel。

直接上代码:

import re import urllib.error import urllib.request import xlwt from bs4 import BeautifulSoup def main(): baseurl ="http://jshk.com.cn" datelist = getDate(baseurl) savepath=".\jshk.xls" saveDate(datelist,savepath) # askURL("http://jshk.com.cn/") findlink = re.compile(r'<a href="(.*?)">') findimg = re.compile(r'<img.*src="(.*?)"',re.S) findtitle = re.compile(r'<span class="title">(.*)</span') findrating = re.compile(r'<span class="rating_num" property="v:average">(.*)</span') findjudge = re.compile(r'<span>(d*)人评价</span>') findinq= re.compile(r'<span class="inq">(.*)</span>') def getDate(baseurl): datalist =[] for i in range(0,10): url=baseurl+str(i*25) html=askURL(url) soup = BeautifulSoup(html,"html.parser") for item in soup.find_all('div',class_="item"): data = [] item = str(item) link = re.findall(findlink,item)[0] data.append(link) img=re.findall(findimg,item)[0] data.append(img) title=re.findall(findtitle,item)[0] rating=re.findall(findrating,item)[0] data.append(rating) judge=re.findall(findjudge,item)[0] data.append(judge) inq=re.findall(findinq,item) if len(inq)!=0: inq=inq[0].replace("。","") data.append(inq) else: data.append(" ") print(data) datalist.append(data) print(datalist) return datalist def askURL(url): head = { "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.97 Safari/537.36"} request=urllib.request.Request(url,headers=head) html="" try: response=urllib.request.urlopen(request) html=response.read().decode("utf-8") # print(html) except urllib.error.URLError as e: if hasattr(e,"code"): print(e.code) if hasattr(e,"reason"): print(e.reason) return html def saveDate(datalist,savepath): workbook = xlwt.Workbook(encoding='utf-8') worksheet = workbook.add_sheet('电影',cell_overwrite_ok=True) col =("电影详情","图片","影片","评分","评价数","概况") for i in range(0,5): worksheet.write(0,i,col[i]) for i in range(0,250): print("第%d条" %(i+1)) data=datalist[i] for j in range(0,5): worksheet.write(i+1,j,data[j]) workbook.save(savepath) if __name__ == '__main__': main() print("爬取完毕")

直接复制粘贴就行。

若要更改爬取网站,则需要更改URL以及相应的html格式(代码中的“item”)。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1141685.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

系统管理工具,多功能隐私清理文件粉碎工具

软件介绍 今天给大伙儿安利个全能的系统管理工具&#xff0c;它叫 Windows超级管理器。功能那叫一个全乎&#xff0c;系统检测、文件清理、隐私保护、磁盘管理、文件粉碎这些实用活儿它都能干&#xff0c;堪称系统管家&#xff01; 绿色单文件版&#xff1a;小巧便携的系统管…

SpringBoot+Vue 智能推荐卫生健康系统平台完整项目源码+SQL脚本+接口文档【Java Web毕设】

&#x1f4a1;实话实说&#xff1a;CSDN上做毕设辅导的都是专业技术服务&#xff0c;大家都要生活&#xff0c;这个很正常。我和其他人不同的是&#xff0c;我有自己的项目库存&#xff0c;不需要找别人拿货再加价。我就是个在校研究生&#xff0c;兼职赚点饭钱贴补生活费&…

【踩坑记】WSL1 下 Docker 报错 iptables: No chain/target/match by that name 排查实录

这是一篇为你整理的“踩坑记”&#xff0c;还原了从报错、排查到发现核心原因并解决的全过程。【踩坑记】WSL1 下 Docker 报错 iptables: No chain/target/match by that name 排查实录1. 背景与环境今天在 WSL (Ubuntu 24.04) 环境下部署 Dify 项目&#xff0c;执行启动命令时…

autosar软件开发中诊断协议栈配置实践案例

AUTOSAR诊断协议栈配置实战&#xff1a;从UDS服务到DTC管理的全链路解析在一辆现代智能汽车中&#xff0c;当你用诊断仪读取一个故障码、刷新ECU程序&#xff0c;或是远程获取车辆实时数据时——背后支撑这一切的&#xff0c;正是AUTOSAR架构中的诊断通信协议栈。它不仅是连接整…

MPC5634 Bootloader

MPC5634 Bootloader嵌入式工程师最怕遇到设备变砖&#xff0c;而好的Bootloader设计就是咱们的救命稻草。今天咱们来盘一盘飞思卡尔MPC5634这颗工业级控制器的Bootloader实现&#xff0c;直接上干货不啰嗦。先说启动流程&#xff0c;这货上电先执行0x00地址的启动代码。来看关键…

无线网络仿真:5G网络仿真_(3).5G关键技术和性能指标

5G关键技术和性能指标 1. 大规模MIMO技术 1.1 原理 大规模MIMO&#xff08;Multiple-Input Multiple-Output&#xff09;技术是5G网络中的一项重要技术&#xff0c;通过在基站和用户设备上部署大量的天线&#xff0c;可以显著提升无线通信系统的容量和频谱效率。大规模MIMO技术…

洗衣店订单管理系统信息管理系统源码-SpringBoot后端+Vue前端+MySQL【可直接运行】

&#x1f4a1;实话实说&#xff1a;有自己的项目库存&#xff0c;不需要找别人拿货再加价&#xff0c;所以能给到超低价格。摘要 随着现代生活节奏的加快&#xff0c;洗衣服务行业逐渐成为城市居民日常生活的重要组成部分。传统的洗衣店管理方式依赖手工记录订单信息&#xff0…

RabbitMQ 集群部署方案

RabbitMQ 一、安装 RabbitMQ 二、更改配置文件 三、配置集群 四、测试 环境准备&#xff1a;三台服务器&#xff0c;系统是 CentOS7 IP地址分别是&#xff1a; rabbitmq1&#xff1a;192.168.152.71rabbitmq2&#xff1a;192.168.152.72rabbitmq3&#xff1a;192.168.152.…

WSL Ubuntu 安装 Docker 操作指南

环境信息 操作系统&#xff1a;Windows 10/11WSL版本&#xff1a;WSL 1 或 WSL 2Linux发行版&#xff1a;Ubuntu 24.04 LTSDocker版本&#xff1a;29.1.4 前提条件 已安装WSL已安装Ubuntu 24.04发行版具有sudo权限的用户账户 安装步骤 1. 检查WSL环境状态 首先检查WSL的运…

Python高级之操作Mysql

Python高级 文章目录 Python高级 python操作数据库mysql-connector demo_mysql_test.py: pyMysql python操作数据库mysql-connector 本章节为大家介绍使用 mysql-connector 来连接使用 MySQL&#xff0c; mysql-connector 是 MySQL 官方提供的驱动器。 可以使用 pip 命令…

35 岁职场危机?网络安全这行为啥越老越吃香?

前几天我表弟小王来找我喝茶&#xff0c;聊着聊着突然问我&#xff1a;“老曹&#xff0c;你说我要不要转行做网络安全啊&#xff1f; 听说这行业挺赚钱的。 “我一听就笑了&#xff0c;这不正好最近我刚研究过这个行业吗&#xff1f; 我跟他说&#xff0c;别看现在各行各业…

cruise仿真模型,四轮驱动。 轮毂电机,轮边电机驱动cruise动力性经济性仿真模型,ba...

cruise仿真模型&#xff0c;四轮驱动。 轮毂电机&#xff0c;轮边电机驱动cruise动力性经济性仿真模型&#xff0c;base模型&#xff0c;适用轮边电机驱动及轮毂电机驱动。 可进行动力性经济性仿真分析&#xff0c;控制策略包含扭矩控制及能量回收控制使用c-code编写&#xff0…

SpringBoot+Vue 课程答疑系统管理平台源码【适合毕设/课设/学习】Java+MySQL

&#x1f4a1;实话实说&#xff1a; 有自己的项目库存&#xff0c;不需要找别人拿货再加价&#xff0c;所以能给到超低价格。 摘要 随着信息技术的快速发展&#xff0c;教育信息化已成为现代教育的重要组成部分。传统的课程答疑方式通常依赖于面对面交流或简单的在线工具&…

从零实现framebuffer显示:裸机环境下简单图形输出教程

点亮第一行像素&#xff1a;在裸机中实现Framebuffer图形输出的硬核实践你有没有试过&#xff0c;在一块全新的开发板上电后&#xff0c;除了串口打印出几行冰冷的“Hello World”&#xff0c;屏幕却始终漆黑一片&#xff1f;这种“看得见摸不着”的调试困境&#xff0c;正是许…

前后端分离BB平台系统|SpringBoot+Vue+MyBatis+MySQL完整源码+部署教程

&#x1f4a1;实话实说&#xff1a;有自己的项目库存&#xff0c;不需要找别人拿货再加价&#xff0c;所以能给到超低价格。摘要 随着互联网技术的快速发展&#xff0c;传统单体架构的Web应用逐渐暴露出开发效率低、维护成本高、扩展性差等问题。前后端分离架构因其模块化、高内…

安全副业指南:漏洞挖掘 / 技术博客 / 竞赛奖金实战,哪个方向更适合你?

安全副业指南&#xff1a;漏洞挖掘 / 技术博客 / 竞赛奖金实战 很多安全从业者和学生都想通过技能赚 “外快”&#xff0c;却陷入 “想做漏洞挖掘怕没经验&#xff0c;想写博客怕没人看&#xff0c;想打竞赛怕拿不到奖” 的困境。其实安全副业的核心不是 “天赋”&#xff0c;而…

【教程4>第10章>第21节】基于FPGA的图像Laplace边缘提取算法开发——理论分析与matlab仿真

目录 1.软件版本 2.图像Laplace边缘提取算法理论概述 3.图像Laplace边缘提取的matlab仿真测试 欢迎订阅FPGA/MATLAB/Simulink系列教程 《★教程1:matlab入门100例》 《★教程2:fpga入门100例》 《★教程3:simulink入门60例》 《★教程4:FPGA/MATLAB/Simulink联合开发入门与进…

STM32新手必看:Keil5代码自动补全设置手把手教程

让Keil5像现代IDE一样聪明&#xff1a;STM32开发中代码自动补全的真正打开方式你有没有过这样的经历&#xff1f;在写HAL_GPIO_的时候&#xff0c;脑子里明明记得有个初始化函数&#xff0c;但就是拼不对——是_Init()还是_Initialize()&#xff1f;大小写对吗&#xff1f;参数…

Java Web 购物推荐网站系统源码-SpringBoot2+Vue3+MyBatis-Plus+MySQL8.0【含文档】

&#x1f4a1;实话实说&#xff1a;有自己的项目库存&#xff0c;不需要找别人拿货再加价&#xff0c;所以能给到超低价格。摘要 随着电子商务的快速发展&#xff0c;个性化推荐系统成为提升用户体验和促进销售的重要手段。传统的购物网站往往缺乏精准的用户行为分析和个性化推…

uds31服务ECU侧内存访问权限控制解析

uds31服务ECU侧内存访问权限控制解析&#xff1a;从协议到实战的深度拆解一次误刷导致整车停线&#xff1f;问题出在哪儿&#xff1f;某OEM在产线上进行ECU软件刷新时&#xff0c;一台车辆突然进入不可恢复的“砖机”状态——无法启动、诊断仪失联。事后排查发现&#xff0c;问…