吉安做网站的公司晋中公司做网站

news/2025/9/23 17:19:26/文章来源:
吉安做网站的公司,晋中公司做网站,网站添加模块,cms建站系统是什么数据采集与预处理02 #xff1a;网络爬虫实战 爬虫基本知识 1 HTTP的理解 URL uniform resource locator. 是统一资源定位符#xff0c;URI identifier是统一资源标识符。几乎所有的URI都是URL。 URL前部一般可以看到是HTTP还是HTTPS#xff0c; 这是访问资源需要的协议…数据采集与预处理02 网络爬虫实战 爬虫基本知识 1 HTTP的理解 URL uniform resource locator. 是统一资源定位符URI identifier是统一资源标识符。几乎所有的URI都是URL。 URL前部一般可以看到是HTTP还是HTTPS 这是访问资源需要的协议类型。HTTP hyper text transfer protocol 是客户端和服务器端请求和应答的标准是互联网中应用最为广泛的一种协议。 HTTPS是以安全为目标的HTTP通道加入了SSL层。 2 网页基础知识 网页的组成分为三大部分HTML、CSSCascading Style sheets层叠样式表、javascript。 在网页中组织页面的对象被渲染成一个树形结构用来标识文档中对象的准确模型称为文档对象模型 Document Object Model DOM。 3 爬虫基本原理 网络爬虫本质上就是获取网页并提取和保存信息的自动化程序。 爬虫的首要工作就是获取网页源代码再从中提取想要的数据。urllib requests等库都能够实现HTTP请求的操作。 获取网页源代码后接下来的工作就是分析网页源代码最通用的方式是使用正则表达式。在python中使用BeautifulSoup PyQuery LXML等库可以更高效的从源代码中提取网页信息。 提取信息之后可以将数据保存到本地以便后续使用。 4. 基本库的使用 以下基于python3.8 4.1 urllib urllib库是python中一个功能强大用于操作URL并在制作爬虫过程中经常用到的库。 发送请求 import urllib.requestrurllib.request.urlopen(HTTP://www.python.org/) print(r)读取响应内容 import urllib.request urlHTTP://www.python.org/ with urllib.request.urlopen(url) as r:r.read()r.read() 将相应内容读到内存。 传递URL参数 import urllib.request import urllib.parse paramsurllib.parse.urlencode({q:urllib,check_keywords:yes,area:default}) urlHTTPS://docs.python.org/3/search.html?{}.format(params) rurllib.request.urlopen(url)传递中文参数 import urllib.request searchwordurllib.request.quote(input(请输入要查询的关键字:)) urlHTTPS://cn.bing.com/images/async?q{}first0mmasync1.format(searchword) rurllib.request.urlopen(url) print(r)定制请求头 import urllib.request url链接 headers{ User-Agent:…… Referer:…… requrllib.request.Request(url,headersheaders) rurllib.request.urlopen(req) }传递POST请求 import urllib.request import urllib.parse url链接 post{ username:xxx password:xxxxx }postdataurllib.parse.urlencode(post).encode(utf-8) requrllib.request.Request(url,postdata) rurllib.request.urlopen(req)下载远程数据到本地 urllib.request.urlretrieve(url,python-logo.png) 另外患有设置代理、异常处理和Cookie的使用不再赘述。 4.2 BeautifulSoup BeautifulSoup提供一些简单的python方式的函数处理导航、搜索、修改分析树等功能。 创建BeautifulSoup对象 from bs4 import BeautifulSoup soupBeautifulSoup(html) print soup.prettify()四大对象类 BeautifulSoup将复杂的HTML文档转换称为一个复杂的树形结构归纳为4种Tag , NavigableString, BeautifulSoup, Comment. Tag就是一个个标签。 print soup.title print soup.head print soup.a print soup.pNavigalbeString 不仅可以得到标签内容还可以通过“.string”获取标签内部的文字。 print soup.p.stringBeautifulSoup BeautifulSoup对象表示一个文档的全部内容。 print type(soupp.name)comment comment对象是一个特殊类型的NavigableString对象其输出内容不包括注释符号。 遍历 Tag的contents属性可以使Tag的子节点以列表方式输出。 print soup.head.contents print soup.head.contents[0]Tag的children返回的不是一个list而是list生成器对象可以用来遍历获取所有子节点。 descendants可以对所有子孙结点进行递归循环。 如果Tag只有一个NavigableString类型的子节点那么Tag可以使用string得到子节点。 使用.stripped_strings可以去除多余空白内容。 使用元素的.parent属性可以获取父节点。 搜索 使用 find_all()搜索 name参数 用来查找所有名称为name的tag。 #传字符串 soup.find_all(b)# 传正则表达式 import re for tag in soup.find_all(re.compile(^b)):print(tag.name)#传列表 soup.find_all([a,b])#传True for tag in soup.find_all(True):print(tag.name)attrs参数 data_soup.find_all(data-foovalue)data_soup.find_all(attrs{data-foo:value})recursive参数 soup.html.find_all(title,recursiveFalse) # recursiveTrue意味着直接检索子节点text参数 通过text参数可以搜索文档中的字符串内容。 soup.find_all(texttest1)limit参数 soup.find_all(a,limit2) #限制返回数量select() 使用soup.select()方法从css中筛选返回类型是list。 print soup.select(title) print soup.select(a)print soup.select(#id值)print (headtitle)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/913291.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

phpcms v9企业网站模板:蓝色电子科技公司网站模板wordpress网页折叠效果

请阅读【嵌入式开发学习必备专栏 】 文章目录 shell 命令 basenamedf 命令 shell 命令 basename 在 shell 脚本中,可以使用 basename 命令来获取文件的基本名称(不带路径的部分)。以下是如何将文件名赋值给变量的示例: file_pat…

网站验收指标网页浏览历史记录在哪

目录 1. 两数之和题目描述做题思路参考代码 49.字母异位词分组题目描述做题思路参考代码 128. 最长连续序列题目描述做题思路参考代码 1. 两数之和 题目描述 给定一个整数数组 nums 和一个整数目标值 target,请你在该数组中找出 和为目标值 target 的那 两个 整数…

网站制作上海湖南专业竞价优化服务

leetcode 98. 验证二叉搜索树 题目 给你一个二叉树的根节点 root ,判断其是否是一个有效的二叉搜索树。 有效 二叉搜索树定义如下: 节点的左子树只包含 小于 当前节点的数。 节点的右子树只包含 大于 当前节点的数。 所有左子树和右子树自身必须也是…

详细介绍:基于伪随机数的WPS PIN码逆向原理分析(精灵尘埃/仙尘攻击)

详细介绍:基于伪随机数的WPS PIN码逆向原理分析(精灵尘埃/仙尘攻击)2025-09-23 17:11 tlnshuju 阅读(0) 评论(0) 收藏 举报pre { white-space: pre !important; word-wrap: normal !important; overflow-x: aut…

52805 JLINK 端口保护机制硬件保护具体流程分析;

硬件保护(Hardware AP-Protect) 通过写特定值(如 Enabled/0x00)到 UICR.APPROTECT 并复位生效。 一旦启用,只有通过 CTRL-AP 执行 ERASEALL(全片擦除,包括 Flash、UICR、RAM)才能解除保护。 这种保护是持久的,…

构建你的 MCP 能力层:.NET 9 + SK 的系统方案

构建你的 MCP 能力层:.NET 9 + SK 的系统方案环境准备与基线项目(.NET 9 + SK + MCP) 目标:搭建最小可运行的 .NET 控制台,引用 SK 与 MCP,完成一次 MCP Ping 健康检查(Stdio 与 SSE/HTTP 各跑通一次),并为后…

网页设计需要什么seo织梦网站建设步骤

在此整理并记录自己的思考过程,其中不乏有一些尚未成熟或者尚未实现的idea,也有一些idea实现之后没有效果或者正在实现,当然也有部分idea已写成论文正在投稿,都是自己的一些碎碎念念的思考,欢迎交流。 研一上学期 9.…

百度联系电话巩义关键词优化推广

视频扩散模型因其能够生成连贯且高保真的视频而日益受到关注。然而,迭代去噪过程使得这类模型计算密集且耗时,限制了其应用范围。香港中文大学 MMLab、Avolution AI、上海人工智能实验室和商汤科技公司的研究团队提出了AnimateLCM,这是一种允…

网站推广业务展会布置

一、位图 1.1 概念 所谓位图,就是用每一位来存放某种状态,适用于海量数据,数据无重复的场景。通常是用来判断某个数据存不存在的。 数据是否在给定的整形数据中,结果是在或者不在,刚好是两种状态,那么可以…

wix做网站的建议做一个公司网站需要多少钱

1.下载eclipseCDT组合包。 2.电脑上安装GCC, G 3.在eclipse上创建一个C project 4. Eclipse CDT功能很强大,安装完虽然可以编译运行c程序,但有个问题,就是找不到c标准库的头文件,无法打开诸如之类的文件,编…

dw做网站怎么加视频网站怎么做百度推广

1.Amazon Certified Cloud Practitioner 转码小白超友好的一门入门级证书,对于之前没有IT或者project经验的同学也可以轻轻松松顺利拿下,含金量很高可以直接标到linkedln的个人介绍里面。 (1)将如何帮助职业生涯 获得此认证可验证对 AWS Cloud、服务和…

会议专属网站平台建设报价单电子政务门户网站建设

1、常用位操作符 1.1、位与& (1)注意:位与符号是一个&,两个&&是逻辑与。 (2)真值表:1&00 1&11 0&00 0&10 (3)从真值表可以看出:位与操作的特点是,只有1和1位于结果为1&…

做策划有帮助的网站二级网站建设规范

简单排序:插入排序、选择排序、 冒泡排序 分治排序:快速排序、归并排序 分配排序:桶排序、基数排序 树状排序:堆排序 其他:计数排序、希尔排序 稳定排序:如果 a 原本在 b 的前面,且 a b&#x…

pl/sql使用

1.下载地址 https://www.allroundautomations.com/try-it-free/ 2.下载instantclient(连接oracle必须) https://www.oracle.com/database/technologies/instant-client/downloads.html 下载完成后,进入plsql=>conf…

PLC中的运动控制 - (二)基本控制指令MC_Power,MC_Stop,MC_Halt

本章介绍PLC中的基本控制指令,包括最基本的启停指令MC_Power和MC_Stop,MC_Halt,并详解MC_Stop何MC_Halt的区别启动指令 MC_Power MC_Power 功能块是运动控制中用于管理轴使能状态的核心指令,其本质是控制PLC与驱动…

WPF Prism PrismApplication OnInitialized()

Install-Package Prism.Wpf; Install-Package Prism.DryIOC; //app.xaml <prism:PrismApplication x:Class="WpfApp38.App"xmlns="http://schemas.microsoft.com/winfx/2006/xaml/presentation"…

公司微网站建设汽车网站建设

深度学习在图像识别中的革命性应用标志着计算机视觉领域的重大进步。以下是深度学习在图像识别方面的一些革命性应用&#xff1a; 1. **卷积神经网络&#xff08;CNN&#xff09;的崭新时代**&#xff1a; - CNN是深度学习在图像识别中的核心技术&#xff0c;通过卷积层、池化…

FOC之电机模型

概述FOC全称磁场定向控制,从该名称可推导出适用电机的几个特点:磁场是主动方 无机械换向 转子是永磁体符合以上特点的有直流无刷电机(BLDC)和永磁同步电机(PMSM)。实际上,这两种电机的总体结构是一样的,区别在于电…

使用shell脚本一键部署docker及docker-compose环境

准备安装包: 安装包邮箱留言获取 ahui6-docker-compose-binary-install.tar.gz 脚步内容: #!/bin/bash #auther: ahui6 #博客地址: https://www.cnblogs.com/ahui6#加载操作系统的变量,主要是ID变量。 . /etc/os-re…

网站seo文章只有网站才需要域名吗

准备在工作之余看看Python的东西 收录一些资料 Python初学者&#xff08;零基础学习Python、Python入门&#xff09;常见问题&#xff1a;书籍推荐、资料、社区 http://blog.csdn.net/xiaowanggedege/article/details/8566606 小甲鱼零基础入门学习Python(全87集) http://pan.b…