爬虫(requsets)笔记

一、request_基本使用

pip install requests -i https://pypi.douban.com/simple 

一个类型六个属性

r.text 
获取网站源码
r.encoding 访问或定制编码方式
r.url 获取请求的url
r.content 响应的字节类型
r.status_code 响应的状态码
r.headers 响应的头信息
import requestsurl='http://www.baidu.com'resopnse=requests.get(url=url)# 第一类型和六个属性
# Response类型
print(type(resopnse))# 设置响应的编码格式
resopnse.encoding='utf-8'
# 以字符串的形式
print(resopnse.text)# 返回一个url地址
print(resopnse.url)# 返回的是二进制数据
print(resopnse.content)# 返回响应的状态码
print(resopnse.status_code)# 返回的是响应头
print(resopnse.headers)

二、requests_get请求

定制参数

1、参数使用params 传递
2、参数无需urlencode编码
3、不需要请求对象的定制
4、请求资源路径中?可加可不加

# urllib
# 1 一个类型六个方法
# 2 get 请求
# 3 post 请求
# 4 ajax get 请求
# 5 ajax post 请求
# 6 cookie登录
# 7 代理# requsets
# 1 一个类型六个属性
# 2 get 请求
# 3 post 请求
# 4 代理
# 5 cookie 验证码import requestsurl='http://www.baidu.com/s?'headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/112.0.0.0 Safari/537.36'
}data={'wd':'北京'
}# url   请求资源路径
# params 参数
# kwargs 字典
response=requests.get(url=url,params=data,headers=headers)content=response.textprint(content)# 参数使用params传递
# 参数无需urlencode编码
# 不需要请求对象定制
# 请求资源路径中的?可加可不加

三、request_post请求

getpost区别?

1: get 请求的参数名字是 params post 请求的参数的名字是 data
2: 请求资源路径后面可以不加?
3: 不需要手动编解码
4: 不需要做请求对象的定制


import requestsurl='https://fanyi.baidu.com/sug'headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/112.0.0.0 Safari/537.36'
}data={'kw':'eye'
}#url 请求地址
#data 请求参数
#kwarg 字典
response=requests.post(url=url,data=data,headers=headers)content=response.textobj=response.json()
print(obj)#总结
# 1 post请求 是不需要编解码
# 2 post请求的参数是data
# 3 不需要请求对象的定制

四、使用requsests和xpath获取数据

示例 :获取 百度一下

代码如下:


# 使用requests和Xpath获取数据
from lxml import etree
import requestsurl = 'https://www.baidu.com/'
headers = {'User-Agent' : 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) Chrome/65.0.3325.181'}response = requests.get(url,headers = headers)# 设置响应的编码格式
response.encoding='utf-8'# 获取网页源码
content= response.content.decode('utf-8')
# print(content)# xpath解析
html=etree.HTML(content,parser=etree.HTMLParser(encoding='utf-8'))
request=html.xpath('//*[@id="su"]/@value')[0]
print(request)

运行结果:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/898918.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

centos7连不上接网络

选择编辑, 选择虚拟机网络编辑 右键虚拟机,点击设置,设置网络,选择nat模式, 配置:/etc/sysconfig/network-scripts/ifcfg-ens33 vim /etc/sysconfig/network-scripts/ifcfg-ens33设置IP地址如图所示,重…

OpenResty(Lua)+Redis实现动态封禁IP

文章目录 架构设计环境准备源码编辑安装OpenResty下载安装准备依赖编译安装配置环境变量(可选)OpenResty 服务管理命令 安装Redis配置Lua脚本测试准备测试工具测试封禁逻辑 删除版本信息清除编译安装的OpenResty 架构设计 通过 Nginx Redis 的方案&…

Turtle基本操作(前进、后退、旋转)

1. Turtle基本移动概念 在Turtle绘图中,“海龟”(Turtle)相当于一支笔,它在屏幕上移动时,会在经过的路径上留下轨迹。我们可以通过一系列简单的指令控制它的前进、后退和旋转,从而绘制各种形状和图案。 2. 前进与后退 2.1 前进(forward() 或 fd()) Turtle的 forward…

C++类与对象的第一个简单的实战练习-3.24笔记

在哔哩哔哩学习的这个老师的C面向对象高级语言程序设计教程&#xff08;118集全&#xff09;讲的真的很不错 实战一&#xff1a; 情况一&#xff1a;将所有代码写到一个文件main.cpp中 #include<iostream> //不知道包含strcpy的头文件名称是什么,问ai可知 #include<…

Jetson Orin NX使用 Ollama 本地部署 deepseek

本文记录在 jetson orin nx 上使用 ollama 部署 deepseek 的过程 有用的网站及工具 NVIDIA Jetson AI LabOllama官网Jtop 工具 > 用以查看jetson GPU/CPU/Memory 等占用情况的工具&#xff0c;安装过程如下&#xff1a; sudo apt-get install python3-pip sudo -H pip3 in…

目标检测20年(三)

对这篇论文感兴趣的小伙伴可以订阅笔者《目标检测》专栏&#xff0c;关注笔者对该文献的阅读和理解。 前两篇解读链接&#xff1a; 目标检测20年&#xff08;一&#xff09;-CSDN博客 目标检测20年&#xff08;二&#xff09;-CSDN博客 目录 四、 检测器的加速发展 4.1 特…

智能手持终端PDA在设备巡检管理中的应用

在工业制造、能源电力、轨道交通等领域&#xff0c;设备巡检是保障生产安全与连续性的核心环节。传统巡检模式存在效率低、易出错、数据滞后等痛点。上海岳冉智能设备巡检手持终端PDA&#xff0c;以智能化、数字化、高可靠为核心设计理念&#xff0c;集RFID、条码扫描、AI图像识…

AI知识补全(二):提示工程(Prompting)是什么?

名人说&#xff1a;人生如逆旅&#xff0c;我亦是行人。 ——苏轼《临江仙送钱穆父》 创作者&#xff1a;Code_流苏(CSDN)&#xff08;一个喜欢古诗词和编程的Coder&#x1f60a;&#xff09; 上一篇&#xff1a;AI知识补全&#xff08;一&#xff09;&#xff1a;tokens是什么…

C++友元:跨墙访问的三种姿势

目录 友元 友元之普通函数形式 友元之成员函数形式 友元类 友元的特点 友元 什么叫友元&#xff1f; 一般来说&#xff0c;类的私有成员只能在类的内部访问&#xff0c;类之外是不能访问它们的。但如果将其他类/函数设置为类的友元&#xff0c;那么友元类/函数就可以在前…

位运算[找出唯一成对的数]

题目来源&#xff1a;蓝桥云课 不用辅助储存空间 import java.util.Random;public class T_01 {public class Util {public static void swap(int[] arr, int i, int j) {int temp arr[i];arr[i] arr[j];arr[j] temp;}public static void print(int[] arr) {for (int i 0; …

简记_FPGA 硬件最小系统设计

一、FPGA板级设计的五要素 1.1、电源电路 核心电压&#xff1a;一般为固定值 IO电压&#xff1a;FPGA的IO分为多个bank&#xff0c;同一个bank的不同IO引脚电压相同&#xff0c;不同bank的电压可以不同 辅助电压&#xff1a;除了核心电压和IO电压&#xff0c;FPGA工作所需的…

7.2 控件和组件

版权声明&#xff1a;本文为博主原创文章&#xff0c;转载请在显著位置标明本文出处以及作者网名&#xff0c;未经作者允许不得用于商业目的 C#工具箱位于编辑窗口的左侧&#xff0c;它默认内置了大量的控件和组件。控件一般派生于System.Windows.Forms.Control类&#xff0c;显…

Spring Boot中接口数据字段为 Long 类型时,前端number精度丢失问题解决方案

Spring Boot中接口数据字段为 Long 类型时&#xff0c;前端number精度丢失问题解决方案 在Spring Boot中&#xff0c;当接口数据字段为 Long 类型时&#xff0c;返回页面的JSON中该字段通常会被序列化为数字类型。 例如&#xff0c;一个Java对象中有一个 Long 类型的属性 id …

OpenCV第2课 OpenCV的组成结构与图片/视频的加载及展示

1.OpenCV 的组成结构 2.OpenCV 的具体模块 3. 图像的读取 4. 视频的读取 1.OpenCV 的组成结构 OpenCV 是由很多模块组成的,这些模块可以分成很多层: 最底层是基于硬件加速层(HAL)的各种硬件优化。再上一层是opencv_contrib 模块所包含的OpenCV 由其他开发人员所贡献的代…

安装配置Tesseract-OCR

1,下载对应的可执行文件 在Tesseract OCR下载地址Index of /tesseract下载合适的版本安装包,如下: 点击安装包进行安装: 语言选择英文: 如果需要识别中文,则可以在安装过程中勾选下载中文语言包和脚本(也可以按需选择繁体):

关于墙面涂鸦的视觉检测与喷涂修复装置研究(大纲)

公共场所墙面涂鸦视觉检测与精准喷涂修复装置研究 融合视觉识别与自动化喷涂的墙面维护解决方案 第一章 绪论 1.1 研究背景与意义 城市形象与秩序维护&#xff1a; 涂鸦对公共环境的影响&#xff08;破坏美观、传递不良信息&#xff09;清除涂鸦的重要性&#xff08;恢复原貌…

图论 | 98. 所有可达路径

98. 所有可达路径 题目链接&#xff1a; 98. 所有可达路径 思路 先创建邻接矩阵&#xff0c;再深搜写代码是需要注意的是acm格式&#xff0c;输入的格式要转化为int&#xff0c;输出要转化为str&#xff0c;用map&#xff08;&#xff09;实现。 dfs def dfs(grid,node,n,…

MCP+Hologres+LLM 搭建数据分析 Agent

LLM大模型在数据分析领域的挑战 在数据分析领域&#xff0c;大模型&#xff08;LLM&#xff09;具备强大语言理解能力&#xff0c;NL2SQL等各类智能化工具也极大提升了数据分析人员的分析效率&#xff0c;但仍旧面临不少挑战&#xff1a; 传统 LLM 缺乏实时数据接入能力&…

Categorical分布(分类分布):深度学习中的离散建模利器

Categorical分布&#xff1a;深度学习中的离散建模利器 引言 对于深度学习研究者来说&#xff0c;概率分布是模型设计和优化的基石。在许多生成模型中&#xff0c;如变分自编码器&#xff08;VAE&#xff09;及其变种VQ-VAE&#xff08;Vector Quantized Variational Autoenc…

Langchain 提示词(Prompt)

基本用法 1. 基本概念 提示词模板 是一个字符串模板&#xff0c;其中包含一些占位符&#xff08;通常是 {variable} 形式的&#xff09;&#xff0c;这些占位符可以在运行时被实际值替换。LangChain 提供了多种类型的提示词模板&#xff0c;以适应不同的使用场景。 2. 主要类…