102302142罗伟钊第一次作业

news/2025/10/23 22:54:34/文章来源:https://www.cnblogs.com/sui123feng/p/19161820

1. 作业①:
**1)、核心代码与输出 **
o 要求:用requests和BeautifulSoup库方法定向爬取给定网址(http://www.shanghairanking.cn/rankings/bcur/2020 )的数据,屏幕打印爬取的大学排名信息。
图片
代码是一个大学排名数据爬虫,主要思路是通过网络请求获取软科2020年中国大学排名页面,然后使用BeautifulSoup解析HTML内容,提取出各个大学的排名、名称、所在省市、学校类型和总分等信息。程序将提取的数据进行整合,最后以整齐的表格形式在控制台输出展示。
图片
通过F12审查元素,再通过标签匹配相关的属性
图片
图片
排名与校名有着独特的标签

1
清华大学
剩下所在省市、学校类型和总分标签完全一致,通过具体'td'标签的位置进行提取
图片
2)心得体会:
从使用requests库发送请求获取网页源码,到利用BeautifulSoup解析复杂的HTML结构并精准提取排名、校名、总分等字段,最后将数据清晰规整地输出。这个过程让我认识到,细致的标签定位和必要的数据清洗对保证数据质量至关重要。

2. 作业②:
1)、核心代码与输出
o 要求:用requests和re库方法设计某个商城(自已选择)商品比价定向爬虫,爬取该商城,以关键词“书包”搜索页面的数据,爬取商品名称和价格。
图片
如上图,爬的是当当网,其网址的url较为规整,为https://search.dangdang.com/?key=%CA%E9%B0%FC&act=input&page_index=i,易于爬取
图片
但值得注意的是网站的商品名对应标签是'gbk'形式的,一开始用'utf-8'显示乱码
输出结果如下:
图片
2)心得体会:
在处理商品数据时,我意识到数据清洗的重要性。每个商品的名称和价格信息都需要精确提取,稍有偏差就会导致结果不准确。特别是在中文字符编码方面,正确设置gbk编码确保了商品名称的正常显示。

3.作业③
1)、核心代码与输出
o 要求:爬取一个给定网页(https://news.fzu.edu.cn/yxfd.htm)或者自选网页的所有JPEG、JPG或PNG格式图片文件
在该题中,我爬取的是福大的新闻网的数据,爬取图片不仅限与主栏中的图片,还包含有侧栏等的,诸如校徽的logo,重复出现的不再存,只要是属于(jpg|jpeg|png|gif|bmp|webp|svg)中的一种,当然,大部分都是jpg与png格式的图片,其中dif存在3张。
图片
图片
如上图,该题与上题略有不同的是需要生成文件名对图片进行存储。
2)心得体会:
****通过完成这个福州大学新闻图片爬虫项目,我深刻体会到编写一个稳健的爬虫程序需要考虑诸多细节。在实现过程中,URL去重和文件去重机制让我意识到数据完整性的重要性,避免了重复下载造成的资源浪费。使用正则表达式提取图片链接虽然比HTML解析器更复杂,但让我对字符串匹配和模式识别有了更深的理解。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/944756.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

一个基于 .NET 开源、功能强大的分布式微服务开发框架

前言 今天大姚给大家分享一个基于 .NET 开源、功能强大的分布式微服务开发框架:Anno.Core。Anno.Core 项目介绍 Anno.Core 是一个基于 .NET 开源、功能强大的分布式微服务开发框架,致力于简化分布式、微服务系统的构…

UE4学习笔记

基本操作窗口这里可以打卡很多视口设置可以通过设置书签到自己想要的视角视口世界大纲

20251021 NOIP模拟赛

T2 题目大意; 有一棵大小为 \(n\) 的树和 \(m\) 个关键点,你要从这 \(m\) 个关键点中随机选择 \(k\) 个点,问这 \(k\) 个点两两之间最长距离的期望是多少。 \(n \le 2000, m \le 300\) 解题思路: 最暴力的做法肯定…

RocketMQ+Spring Boot的简单实现及其深入分析

Producer搭建导入RocketMQ依赖和配置RocketMQ地址及producer的group:name<dependency><groupId>org.apache.rocketmq</groupId><artifactId>rocketmq-spring-boot-starter</artifactId>…

xcode程序创建文件存储位置

xcode创建的文件不在cpp文件所在位置,经过查找发现在下面这个地方/Users/用户名/Library/Developer/Xcode/DerivedData/employeesystem-dlmmqxmyqxjljjcoskekmpsbtstd/Build/Products/Debug employeesystem是项目名称…

欧拉操作系统搭建docker

欧拉安装dockerdocker官方没有支持欧拉的,因此使用的是centos7的docker源2者底层是类似的1、配置yum源和安装docker yum-config-manager --add-repo https://mirrors.aliyun.com/docker-ce/linux/centos/docker-ce.re…

关于2025年暑假自主巡航小车脚本文件的学习笔记

脚本:gnome-terminal --window -e bash -c "roscore; exec bash" \ gnome-terminal命令用于新建一个GNOME桌面环境的终端程序(顶级窗口) 选项--window,新建一个窗口与默认行为一致(属于是显式写法,提高…

3dmax下载安装教程及激活教程(附安装包)3dmax2025超详细下载安装步骤

很多新手想装 3dmax 2025 却不知道从哪下手,别担心,这份 3dmax 2025 详细安装教程从下载到激活,再到软件用法,一步一步教你,保证看了就会,轻松解决 3dmax 2025 安装难题。目录3dmax 2025 到底好用在哪?3dmax 20…

RFSOC学习记录(五)带通采样定理

RFSOC学习记录(五),在配置adda的混频模式之前通过公式推导介绍了带通采样定理以及奈奎斯特分区​花了三篇文章的时间大致讲了讲我对于rfsoc时钟树的理解,非常的浅薄与浅应用,现在我再从原理层面记录一下我对于rf …

66页作业

点击查看代码 import torch import torch.nn as nn import torch.optim as optim import torchvision import torchvision.transforms as transforms import matplotlib.pyplot as plt import numpy as np# 设置设备 d…

NXP S32K118的FTM模块分析

背景介绍: FTM(fLexTimer Module)是NXP微控制器中常用的定时器模块,它设计用于生成复杂的PWM信号,输入捕获,输出比较等。 在同一个FTM模块内(FTM0),所有的通道(Channel 0到Channel n)都必须共用以下资源: 基…

XSD 文档(XML Schema Definition)简介

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

LLM 场景下的强化学习技术扫盲

1. 强化学习基础:行业黑话 想象你正在和一个刚训练好的语言模型聊天。你问:“今天过得怎么样?” 模型可能回:“还行。” 也可能回:“我是个 AI,没有感情。” 人类觉得前者更自然、更友好——这就是偏好反馈。强化…

vmware虚拟机下载安装教程(付安装包)详细图文下载安装教程

目录VMware Workstation Pro 17 是什么?VMware Workstation Pro 17 有哪些核心功能?VMware Workstation Pro 17 安装包下载安装 VMware Workstation Pro 17 电脑配置VMware Workstation Pro 17 安装激活步骤用 VMwar…

deepin 25 虚拟机安装vgpu客户机驱动

# 关闭磐石 **必须关闭,不然兼容库和英伟达驱动无法安装** sudo deepin-immutable-writable enable# 升级系统 sudo apt update sudo apt dist-upgrade# 安装驱动前的兼容程序 sudo apt install linux-headers-$(unam…

CF2153D

给定 \(n\) 个数 \(a_1 \sim a_n\),这 \(n\) 个数围成一圈,\(a_i\) 与 \(a_{i - 1}, a_{i + 1}\) 相邻(\(a_1, a_n\) 相邻)。每次操作可以将某个数 \(+1/-1\),问至少经过几次操作能使每个数至少和它相邻的一个数相…

20232417 2025-2026-1 《网络与系统攻防技术》实验二实验报告

1.实验内容 本次实验系统掌握了后门技术的实现与应用,通过netcat、socat和MSF meterpreter等工具成功建立了反向Shell连接,实现了文件传输、系统监控等后门功能,并在实践过程中深入理解了网络配置、权限提升、安全防…

英语_阅读_inspiration for artists_待读

Nature is one of the main sources of inspiration for artists. 大自然是艺术家灵感的主要来源之一。 Weve seen many works of art that are about trees, but in South Africa, there is a special work of art th…

写电商详情页不用挠头了:一个还算实用的AI指令模板

分享一套实用的AI指令模板,用于生成电商产品详情页文案。通过结构化的提示词设计,将详情页拆解为标题、痛点唤醒、产品卖点、使用场景、参数说明、购买保障等5大模块,配合DeepSeek等国产AI平台使用,能快速生成质量…

iPhone口袋状态检测技术揭秘

本文深入分析iPhone统一日志中的Doppler功能,通过实验测试红外摄像头在不同触发条件下的工作状态,揭示设备如何检测口袋状态并记录相关日志信息的技术原理。iPhone口袋状态检测 统一日志是iOS设备的核心组件,能够持…