Python爬虫小练习

爬虫的本质

爬虫的本质就是通过程序模拟正常人向网站发送请求获取信息。

关于爬虫的一些闲聊

按照我们的常识来说,我们不可能在1秒钟访问这个网站100次,请求100次数据,所以过多的请求很有可能会被网站认为你在使用脚本进行爬虫,可能会封你IP,或者说当你爬虫不修改UA头时,python会默认告诉网站自己是一个爬虫脚本,相当于明牌告诉别人自己是来爬你网站。而且要是网站有WAF,也可能设置有策略,不让你爬,当然要是你手法够硬,也是可以绕的。当然作者水平有限,并且各位在爬虫的时候要清楚哪些东西可以爬,哪些东西不能爬,不要触及了法律的红线。年纪轻轻就吃上了国家饭.QAQ

爬取某小说网站(URL已码)

import requests
import os
import parselend=input("你想爬取多少章?(阿拉伯数字输入,大于2):")
end= int(end)
print("正在爬取请稍等...")#爬取第一页的内容
print("==============正在爬取第1章==============")
url = f'xxxxxxx'response = requests.get(url=url)
response.encoding = response.apparent_encoding
html = response.text# 解析html
selector = parsel.Selector(html)# 获取文章标题
title = selector.css('.content h1::text').get()
#print(title)# 获取小标题内容
content_1 = selector.css('#chaptercontent::text').get()
#print(content_1)# passage = ''.join(selector.xpath('//div[@id="chaptercontent"]//text()').getall()).strip()
passage = ''.join(selector.css('#chaptercontent').xpath('./text()').getall()[:-4])
passage = passage.replace('  ', '\n')
#print(passage)filename = 'xxxxxx\\'
if not os.path.exists(filename):os.mkdir(filename)
with open(filename +title+ '.txt', mode='wb') as f:f.write(passage.encode('utf-8'))#后续内容for page in range(2,end+1):print(f"==============正在爬取第{page}章==============")url = f'xxxxxxxxxxxxxxxxxxx'response=requests.get(url=url)response.encoding = response.apparent_encodinghtml=response.text# 解析htmlselector=parsel.Selector(html)# 获取文章标题title=selector.css('.content h1::text').get()#print(title)# 获取小标题内容#content_1 = selector.css('#chaptercontent::text').get()#print(content_1)#passage = ''.join(selector.xpath('//div[@id="chaptercontent"]//text()').getall()).strip()passage = ''.join(selector.css('#chaptercontent').xpath('./text()').getall()[:-4])passage=passage.replace('  ','\n')#print(passage)with open(filename + title+ '.txt', mode='wb') as f:f.write(passage.encode('utf-8'))
print("爬取完成,已保存在同目录下")

代码思路

总之,我觉得无论是爬那个网站,思路上都大体差不多。

  1. 获取网站的html源码
  2. 用html解析器解析(我这里用的是parsel模块)
  3. 分析网页的结构,用解析器提炼出你想获取的东西
  4. 先获取单个,然后根据相同结构的页面用循环来实现翻页获取大量资源
  5. 如果爬取的资源过多,建议设置一个sleep函数,不要让服务器的负担过大,给网站的管理者造成负担。

ps:注意编码格式,很多时候打印不出东西都是因为格式的问题。本人还是学生,也是初学者,代码写的比较草率,旨在记录学习。如有错误欢迎指出改正。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/24280.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

从入门到精通:基础IO

引言 在编程的世界里,文件输入输出(IO)是与操作系统交互的重要方式。无论你是开发应用程序、处理数据,还是管理系统资源,掌握文件IO操作都是必不可少的。本篇博客将带你深入了解C语言中的基础IO操作,从入门…

使用 IPSET 添加 CDN 节点 IP(IPv4/IPv6)到防火墙白名单

明月的服务器一直使用的是 iptables,随着近几年 IPv6 的普及,明月切身体会到还是 IPSET 最方便了,无论你是 IPv4 还是 IPv6 都可以方便的管理,无论你是加入白名单还是黑名单,都非常的简单高效!今天就参照明月自己的实操…

东方博宜1317 - 正多边形每个内角的度数?

问题描述 根据多边形内角和定理,正多边形内角和等于:( n-2 ) 180∘( n 大于等于 3 且 n 为整数)。 请根据正多边形的边数,计算该正多边形每个内角的度数。(结果保留1位小数&#x…

Python 机器学习 基础 之 【实战案例】新闻内容分类实战

Python 机器学习 基础 之 【实战案例】新闻内容分类实战 目录 Python 机器学习 基础 之 【实战案例】新闻内容分类实战 一、简单介绍 二、新闻内容分类实战 三、数据准备 四、分词与清洗工作 1、读取数据 2、使用 jieba 分词器进行分词,使用 Pandas 创建Data…

cesium已知两个点 写一个简单具有动画尾迹效果的抛物线

// 定义起点和终点的经纬度和高度 var start = {longitude: 111.09683723811149, latitude: 38.92112250636146, elevation: 603.5831692856873 }; var end = {longitude: 111.09769465526689, latitude: 38.92815375977821, elevation: 627.0132157062261 }; // 生成更多的中…

【亲测可用】Linux的wget太慢,使用mwget加速下载

微信公众号:leetcode_algos_life,代码随想随记 小红书:412408155 CSDN:https://blog.csdn.net/woai8339?typeblog ,代码随想随记 GitHub: https://github.com/riverind 抖音【暂未开始,计划开始】&#xf…

R语言探索与分析19-CPI的分析和研究

一、选题背景 CPI(居民消费价格指数)作为一个重要的宏观经济指标,扮演着评估通货膨胀和居民生活水平的关键角色。在湖北省这个经济活跃的地区,CPI的波动对于居民生活、企业经营以及政府宏观经济政策制定都具有重要的影响。因此&a…

ES 面试手册

Elasticsearch是什么? Elasticsearch是一个基于Lucene的搜索和分析引擎,它提供了一个分布式、多租户能力的全文搜索引擎,具有HTTP Web界面和无模式JSON文档。 Elasticsearch中的倒排索引是什么? 倒排索引是搜索引擎的核心结构&a…

Java——面向对象进阶(一)

前言 面向对象进阶(一):static,继承,this和super关键字 文章目录 一、static1.1 静态变量1.2 静态方法1.3 静态变量和静态方法在内存中 二、继承2.1 概念2.2 继承的特点和能继承什么2.3 继承中的重写2.4 this和super关键字 一、static 在 Jav…

Java学习笔记(六):Array List、学生管理系统、学生管理系统升级版

目录 一、ArrayList 1.1集合和数组的优势对比: 1.2 ArrayList类概述 1.3 ArrayList类常用方法 1.3.1 构造方法 1.3.2 成员方法 1.4 ArrayList存储字符串并遍历 1.5 ArrayList存储学生对象并遍历 1.6 查找用户的索引 1.7 添加手机对象并返回要求的数据 二…

谈AI 时代网站的未来趋势

以大语言模型为代表的AI 技术迅速发展,将会影响原有信息网络的方式。其中一个明显的趋势是通过chatGPT 对话代替搜索引擎和浏览器来获取信息。 互联网时代,主要是通过网站(website)提供信息。网站主要为人类阅读的方式构建的。主要…

kali-vulhub(持续更新)

一些自己用kali搭建vulhub的便捷及问题 自己的环境kali2024.1 / Debian12 x 64 kali安装或更换jdk版本 自带的是jdk17 环境要求是jdk8 下载java包放到kali mkdir -p /usr/local/java cp jdk-8u202-linux-x64.tar.gz /usr/local/java cd /usr/local/java tar x…

数据结构笔记1 绪论,线性表

学习视频: 第01周c--1.2基本概念和术语1_哔哩哔哩_bilibili 01《数据结构》绪论_哔哩哔哩_bilibili 数据: 1.数值型的数据:整数,实数 2.非数值型的数据:文字、图像.. 数据元素:(元素&#xf…

人类语言处理nlp部分笔记——四、GPT3

参考自李宏毅课程-人类语言处理 四、GPT3 1. 介绍 GPT-3是一个language model,它的参数量相当巨大,是ELMO的2000倍。 2. GPT-3的野心 虽然GPT-3和BERT等模型一样,但是GPT-3是不需要针对特定的task做finetune的,也就是说GPT-3…

React 18

创建 React 18 脚手架项目 全局安装 create-react-app npm install -g create-react-app yarn global add create-react-app . 确认是否已安装 create-react-app npm list -g create-react-app yarn global list | grep create-react-app . 如果安装失败 有时&#xff0…

4-Maven-plugins之打包方式

4-Maven-plugins之打包方式 方式一【推荐】&#xff1a;使用maven-jar-plugin和maven-dependency-plugin 打成的最终jar包中没有所依赖的jar包。依赖跟自己的代码不在一个jar包中。 传说中的"瘦Jar" <build><directory>${project.basedir}/target</d…

第3章 列表简介

第3章 列表简介 3.1 列表是什么3.1.1 访问列表元素3.1.2 索引从 0 而不是 1 开始3.1.3 使用列表中的各个值 3.2 修改、添加和删除元素3.2.1 修改列表元素3.2.2 在列表中添加元素3.2.3 从列表中删除元素 3.3 组织列表3.3.1 使用方法 sort()对列表永久排序3.3.2 使用函数 sorted(…

继续引爆!5天连出2个里程碑成果,离子阱量子计算机嗨翻天!

5月30日&#xff0c;清华大学的一项成果被Nature审稿人称为“量子模拟领域的巨大进步”&#xff01;“值得关注的里程碑”&#xff01;该成果就是中国科学院院士、清华大学交叉信息研究院教授段路明带领研究组在量子模拟计算领域取得的重要突破。段路明研究组首次实现512离子二…

码蹄集部分题目(2024OJ赛18期;并查集+ST表+贪心)

1&#x1f40b;&#x1f40b;史莱姆融合&#xff08;钻石&#xff1b;并查集&#xff09; 时间限制&#xff1a;1秒 占用内存&#xff1a;128M &#x1f41f;题目描述 &#x1f41f;题目思路 这道题目使用并查集&#xff0c;同一集合的所有元素的最顶上的祖父节点是统一的。…

获取当前周周一和周日的日期(格式20240607)

获取当前周周一和周日的日期&#xff08;格式20240607&#xff09; function getWeekStartAndEndDate() {const today new Date() // 获取当前日期const dayOfWeek today.getDay() // 获取今天是周几&#xff0c;返回值是0&#xff08;周日&#xff09;到6&#xff08;周六&…