Python爬虫的基础用法

Python爬虫的基础用法

python爬虫一般通过第三方库进行完成

  1. 导入第三方库(如import requests
    requests用于处理http协议请求的第三方库,用python解释器中查看是否有这个库,没有点击+安装
  2. 获取网站url(url一定要解析正确,如在百度网站中的某个图片,不是指www.baidu.com,而是这个图片的具体地址(可以点击查看,亦可以用浏览器自带的检查功能进行寻找))
  3. 之后通过requests.get打开网站,设置自己适用的encoding
  4. a = re.findall('<标签>正则表达式<标签>',文件名)通过HTML定义的标签,找到自己想要的内容,再赋值给一个变量a(并将获取到的数据以指定的数据类型存储到文件中)
  5. 将文件内容使用print输出进行查看

示例如下:

# url = "http://weather.com.cn/weather1d/101010100.shtml#search"
# resp = requests.get(url)          # 打开浏览器访问该地址
# resp.encoding = 'UTF-8'
# print(resp)# 返回访问代码 200表示成功 500 错误
# print(resp.text) # 展示网页 (html代码的形式展示网页)# city = re.findall('<span class="name">([\u4e00-\u9fa5]*)</span>', resp.text)
# weather = re.findall('<span class="weather">([\u4e00-\u9fa5]*)</span>', resp.text)
# 以上赋值操作中的内容必须在resp.text中存在
# lst = []
# for a,b in zip(city, weather,):  # 通过zip方式将爬取到的内容填充到list中
#         lst.append([a,b])
# for i in lst:
#     print(i)
# 爬取图片与之相似
# url = "https://uhf.microsoft.com/images/microsoft/RE1Mu3b.png"
# resp = requests.get(url)
# # print(resp.content)
# with open('logo.png', 'wb') as f:
#     f.write(resp.content)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/79511.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

WHAT - Tailwind CSS + Antd = MetisUI组件库

文章目录 Tailwind 和 Antd 组件库MetisUI 组件库 Tailwind 和 Antd 组件库 在 WHAT - Tailwind 样式方案&#xff08;不写任何自定义样式&#xff09; 中我们介绍了 Tailwind&#xff0c;至于 Antd 组件库&#xff0c;我们应该都耳熟能详&#xff0c;官网地址&#xff1a;htt…

Day 4:牛客周赛Round 91

好久没写了&#xff0c;问题还蛮多的。听说这次是苯环哥哥出题 F题 小苯的因子查询 思路 考虑求因子个数&#xff0c;用质因数分解&#xff1b;奇数因子只需要去掉质数为2的情况&#xff0c;用除法。 这里有个比较妙的细节是&#xff0c;提前处理出数字x的最小质因数&#xff0…

使用直觉理解不等式

问题是这个&#xff1a; 题目 探究 ∣ max ⁡ b { q 1 ( z , b ) } − max ⁡ b { q 2 ( z , b ) } ∣ ≤ max ⁡ b ∣ q 1 ( z , b ) − q 2 ( z , b ) ∣ |\max_b\{q_1(z,b)\}-\max_b\{q_2(z,b)\}|\le\max_b|q_1(z,b)-q_2(z,b)| ∣maxb​{q1​(z,b)}−maxb​{q2​(z,b)}∣≤…

恶心的win11更新DIY 设置win11更新为100年

‌打开注册表编辑器‌&#xff1a;按下Win R键&#xff0c;输入regedit&#xff0c;然后按回车打开注册表编辑器。‌12‌导航到指定路径‌&#xff1a;在注册表编辑器中&#xff0c;依次展开HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\WindowsUpdate\UX\Settings‌新建DWORD值‌&…

嵌入式驱动学习

时钟 定义 周期型的0、1信号 时钟信号由“心脏”时钟源产生&#xff0c;通过“动脉”时钟树传播到整个芯片中。 SYSCLK系统时钟&#xff0c;由HSI、HSE、PLLCLK三选一。 HCLK是AHB总线时钟&#xff0c; PCLK是APB总线时钟。 使用某个外设&#xff0c;必须要先使能该外设时钟系统…

Java:从入门到精通,你的编程之旅

Java&#xff0c;一门历久弥新的编程语言&#xff0c;自诞生以来就以其跨平台性、面向对象、稳定性和安全性等特性&#xff0c;在企业级应用开发领域占据着举足轻重的地位。无论你是初学者还是经验丰富的开发者&#xff0c;Java 都能为你提供强大的工具和广阔的舞台。 为什么选…

Linux:深入理解数据链路层

实际上一台主机中&#xff0c;报文并没有通过网络层直接发送出去&#xff0c;而是交给了自己的下一层协议——数据链路层&#xff01;&#xff01; 一、理解数据链路层 网络层交付给链路层之前&#xff0c;会先做决策再行动&#xff08;会先查一下路由表&#xff0c;看看目标网…

Python基本语法(类和实例)

类和实例 类和对象是面向对象编程的两个主要方面。类创建一个新类型&#xff0c;而对象是这个 类的实例&#xff0c;类使用class关键字创建。类的域和方法被列在一个缩进块中&#xff0c;一般函数 也可以被叫作方法。 &#xff08;1&#xff09;类的变量&#xff1a;甴一个类…

2025 年如何使用 Pycharm、Vscode 进行树莓派 Respberry Pi Pico 编程开发详细教程(更新中)

micropython 概述 micropython 官方网站&#xff1a;https://www.micropython.org/ 安装 Micropython 支持固件 树莓派 Pico 安装 Micropython 支持固件 下载地址&#xff1a;https://www.raspberrypi.com/documentation/microcontrollers/ 选择 MicroPython 下载 RPI_PIC…

flink rocksdb状态说明

文章目录 1.默认情况2.flink中的状态3.RocksDB4.对比情况5.使用6.RocksDB架构7.参考文章8.总结提示:以下主要考虑flink 状态永久存储 rocksdb情况,做一些简单说明 1.默认情况 当flink使用rocksdb存储状态时。无论是永久存储还是临时存储都可能会落盘写文件(如果没有配置存储…

安装SDL和FFmpeg

1、先记录SDL 这玩意还是有一点讲究的 具体步骤&#xff1a; 下载 SDL包&#xff1a; 链接&#xff1a;https://www.libsdl.org/release/SDL2-2.0.14.tar.gz 可以用迅雷&#xff0c;下载完之后&#xff0c; 解压&#xff1a; tar -zxvf SDL2-2.0.14.tar.gz进入安装目录 cd …

2022年408真题及答案

2022年计算机408真题 2022年计算机408答案 2022 408真题下载链接 2022 408答案下载链接

Spring AI聊天模型API:轻松构建智能聊天交互

Spring AI聊天模型API&#xff1a;轻松构建智能聊天交互 前言 在当今数字化时代&#xff0c;智能聊天功能已成为众多应用程序提升用户体验、增强交互性的关键要素。Spring AI的聊天模型API为开发者提供了一条便捷通道&#xff0c;能够将强大的AI驱动的聊天完成功能无缝集成到…

Softmax回归与单层感知机对比

(1) 输出形式 Softmax回归 输出是一个概率分布&#xff0c;通过Softmax函数将线性得分转换为概率&#xff1a; 其中 KK 是类别数&#xff0c;模型同时计算所有类别的概率。 单层感知机 输出是二分类的硬决策&#xff08;如0/1或1&#xff09;&#xff1a; 无概率解释&#x…

【React】Hooks 解锁外部状态安全订阅 useSyncExternalStore 应用与最佳实践

一、背景 useSyncExternalStore 是 React 18 引入的一个 Hook&#xff1b;用于从外部存储&#xff08;例如状态管理库、浏览器 API 等&#xff09;获取状态并在组件中同步显示。这对于需要跟踪外部状态的应用非常有用。 二、场景 订阅外部 store 例如(redux,mobx,Zustand,jo…

Dify框架面试内容整理-如何评估基于Dify开发的AI应用的效果?

评估基于 Dify 开发的 AI 应用效果,需要从 用户体验、技术性能 与 业务价值 三个层面综合衡量。以下是详细的评估框架,涵盖三个关键点: 用户反馈与满意度

Linux 系统下VS Code python环境配置!

Anaconda安装&#xff1a; 在 Linux 系统中安装下载好的 Anaconda3-2024.10-1-Linux-x86_64.sh&#xff0c;可按以下步骤操作&#xff1a; 1. 赋予安装脚本执行权限 打开终端&#xff0c;切换到安装包所在目录&#xff08;假设在 software 文件夹中&#xff09;&#xff0c;…

项目实战-基于信号处理与SVM机器学习的声音情感识别系统

目录 一.背景描述 二.理论部分 三.程序设计 编程思路 流程图 1.信号部分 创建数据 generate_samples.py 头文件 生成函数 generate_emotion_sample 传入参数 存储路径 生成参数 创建基础正弦波信号 调制基础正弦波 对于愤怒可以增加噪声 归一化信号 存储 主函…

虚幻引擎作者采访

1万小时编程_哔哩哔哩_bilibili https://www.youtube.com/watch?v477qF6QNSvc 提姆斯温尼是一位传奇性的视频游戏程序员&#xff0c;Epic Games 的创始人兼首席执行官。 该公司开发了虚幻引擎、堡垒之夜、战争机器、虚幻竞技场等许多开创性和有影响力的视频游戏。 他哥哥…

如何限制pod 进程/线程数量?

在 Kubernetes 中限制 Pod 的 进程数&#xff08;PID 数量&#xff09; 和 线程数&#xff0c;需要结合 Linux cgroup 控制 和 容器运行时配置。以下是具体方法和示例&#xff1a; 一、限制进程数&#xff08;PID 数量&#xff09; 1. 通过 pids cgroup 控制器限制 原理&…