谁有可以用的网站wordpress 中介网站

news/2025/10/6 21:46:20/文章来源:
谁有可以用的网站,wordpress 中介网站,海北网站建设,wordpress按作者分类#!/usr/bin/python #调用pythonfrom sys import argv #导入sys是导入python解释器和他环境相关的参数from os import makedirs,unlink,sep  #os主要提供对系统路径#xff0c;文件重命名和删除文件所需的函数#makedirs是创建递归文件夹的函数。#比如说我们要创建一个新的目录…#!/usr/bin/python #调用pythonfrom sys import argv #导入sys是导入python解释器和他环境相关的参数from os import makedirs,unlink,sep  #os主要提供对系统路径文件重命名和删除文件所需的函数#makedirs是创建递归文件夹的函数。#比如说我们要创建一个新的目录/python/HTML/crawl,但是目前这三个文件夹都不存在如果使用mkdir命令的话需要使用三次才能完成#但是使用os.makedir只需使用一次就可以创建好整个目录。#os.makedirs(os.path.join(os.erviron[HOME],python,HTML,crawl)#os.unlink(path)删除file路径和remove()相同。#sep os.sep系统用此来分割路径名from os.path import dirname,exists,isdir,splitext#使用os中的这些模块来提取dirname路径名exists,isdir是文件类型测试测试是否是一个目录splitext是将文件名和文件后缀分离。分成目录文件名和后缀两部分。from string import replace,find,lower  #导入string模块用于字符串的替换查找和小写化。from htmllib import HTMLParserfrom urllib import urlretrieve  #urlretrieve()函数用于将HTML文件整个下载到你的本地硬盘中去。from urlparse import urlparse,urljoin  #urlparse用于将URL分解成6个元素,而urljoin用于将baseurl和newurl组合在一起from formatter import DumbWriter,AbstractFormatter  #formatter函数主要用于格式化文本from cStringIO import StringIO  #调用cStringIO函数对内存中的文件进行处理#Retriever类负责从网上下载网页并对每一个文档里面的连接进行分析如果符合下载原则就添加到“待处理”队列中。#从网上下载到的每个主页都有一个与之对应的Retriever实例。Retriever有几个帮助实现功能的方法分别是#构造器(__init__()),filename(),download()和parseAndGetLinks()。class Retriever:def __init__(self,url):#定义构造器指向当前类的当前实例的引用。self 指向新创建的对象另外一个参数是url.#构造器实例化一个Retriever对象并且把URL字符串和从filename()返回的与之对应的文件名保存为本地属性。self.urlurl  #将url的值付给self.urlself.fileself.filename(url)def filename(self,url,deffileindex.html):  #定义filename方法涉及另外两个参数url,deffile,很明显deffile是后缀parsedurlurlparse(url,http:,0)urlparse(urlstr,defProtschNone,allowFragNone),defProtsch定义了缺醒的网络协议和下载方式allow是一个表示是否允许在URL中使用不完整成分的操作标志。allow_fragment如果是false,即使在URL addressing scheme支持fragment identifiers得情况下fragment identifiers也不允许默认情况下fragment的默认值是true.pathparsedurl[1]parsedurl[2]从urlparse分离出来的六个元素分别是(prot_shc,net_loc,path,params,query,frag).parseurl[1]是net_loc,parseurl[2]是path.和在一起正好是整个路径extsplitext(path)将path分解成目录文件名和后缀标志。if ext[1]:如果没有文件。ext是一个字符串ext[0]就是目录文件名而ext[1]就是后缀名说明没有后缀if path[-1]/:并且path是比如说是以我的博客为例http://blog.csdn.net/yangwenchao1983分离后path[-1]3,也就是字符串的最后一个字母如果是/说明有文件内容pathpathdeffile如果URL没有尾缀的文件名就用缺性的index.html“作为文假名可以说是一个主王爷上面有各种文件公下载现在没有合适的文件我们酒吧index.html作为补充。else:pathpath/deffile  #如果是一个完整的文件名我们需要在后面加上/index.html  如果不含有/符号的话dirdirname(path)  #提取path字符串的目录名称if sep!/:  #如果文件的分割符不是/dirreplace(dir,/,sep)  #将dir中的/替换成分割符/if not isdir(dir):  #使用isdir辨别文件类型不是目录。if exists(dir): unlink(dir)  #如果不是目录文件就是用unlink移除makedirs(dir)  #重新使用makedirs创建目录文件return path  #返回经过整理的路径def download(self):  #定义download()方法使用try...except...来进行异常处理try:retvalurlretrieve(self.url,self.file)urlretrieve()不像urlopen()那样对URL进行读操作它只是简单的把位于urlstr处的HTML文件整个下载到你的本地硬盘中去如果没有给出localfile,它就会把数据保存到一个临时文件中去。很明显这行程序的意思就是将self.url从望上的某个地方拷贝到硬盘的self.file中去。except IOError:如果文件不存在就会引发IOerror,retval(***ERROR: invalid URL %s %\self.url,)没有在有效的网址上找到这个文件就将***ERROR: invalid URL %s打印出来return retval  #返回得到的文件def parseAndGetLinks(self):如果上面的的处理没有发现任何错误就会调用parseAndGetLinks()对新下载打破的主页进行分析确定对那个主页上的每一个连接应该采取什么样的行动。self.parserHTMLParser(AbstractFormatter(DumbWriter(StringIO())))使用HTMLParser的方法进行处理,StringIO是从内存中读取数据DumbWriter将事件流转换为存文本文档。self.parser.feed(open(self.file).read())将self.file文件打开并且一次性读入上面定义的的文件中去self.parser.close()  #关闭文件return self.parser.anchorlist  #返回地址和日期class Crawler:Crawler由三个数据项组成这三个数据项是由构造器在实例化阶段报存在这里的。count 0   #静态下载主页计数器def __init__(self,url):self.q[url]第一个数据是q,这是一个有下载连接组成的队列这个清单在执行过程中是会变化的没处理一个主页它就缩短一次而在各下载主页中发现一个新的连接就会被加长。self.seen[]Crawler的另外两个数据项包括seen-这是我们已经下载过的全体连接所组成的一个列表self.domurlparse(url)[1]把主连接的域名报存在dom中用这个值核对后续连接是否属于这同一个区域。def getPage(self,url):getPage()方法用第一个连接实例化出一个Retriever对象从她开始进行后续的处理。rRetriever(url)使用上面定义过得Retriever类付给r。retvalr.download()  #下载网页连接if retval[0]*:print retval,...skipping parsereturnCrawler.countCrawler.count1Crawler还有一个静态数据叫做count。这个计数器的作用就是记录我们呢已经从望红色那个下载到的对象的个数每成功下载一个主页就让它增加一个数。print \n(,Crawler.count,)print URL:,urlprint FILE:,retval[0]self.seen.append(url)linksr.parseAndGetLinks()for eachLink in Links:if eachLink[:4]!http and find(eachLink,://)-1print *,eachLink以下链接将被忽略不会被添加到待处理队列里去的属于另外一个域的连接已经被下载过得链接已经放入待处理队列里去的连接或者是mailto:连接。if find(lower(eachLink),mailto:)!-1:应该是超连接print ...discard,mailto linkcontineif eachlink not in self.seen:if find(eachLink,self.dom)-1:print ...discarded,not in domainelse:if eachLink not in self.q:self.q.append(eachLink)print ...new,aded to Qelse:print ...discarded,already in Qelse:print ...discarded,already processeddef go(self):while self.q:urlself.q.pop()self.getPage(url)def main():if len(argv)1:urlargv[1]else:try:urlraw_input(Enter starting URL:)except(KeyboardInterrupt,EOFError):urlif not url: returnrobotCrawler(url)robot.go()if __name____main__:main()main()只有在这个脚本程序在直接被调用时才会执行它是程序的出发点其他导入了crawl.py的模块需要明确的调用main()才能开始处理。要让main()开始执行需要给它一个URL如果已经在一个命令行给出URL(例如我们直接调用这个脚本程序的时候)它就会从给定的URL起开始运行否则脚本程序将进入交互模式提示用户输入一个URL。有了初始连接之后程序将对Crawler类进行实例化并开始执行。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/929736.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

类似in a wordpress苏州网站建设网站优化

鼠标会变成以下 拉开后就 出现想要的部分

WannaCry勒索病毒数字取证与安全监控实战指南

本文详细介绍了如何构建网络安全实验环境分析WannaCry勒索病毒,涵盖Elastic SIEM配置、Sysmon监控部署、静态动态分析技术,以及使用Autopsy和Volatility进行磁盘内存取证的全流程实战操作。WannaCry勒索病毒:DFIR与…

Azure DevOps 管道部署系列之一本地服务器 - 实践

Azure DevOps 管道部署系列之一本地服务器 - 实践2025-10-06 21:39 tlnshuju 阅读(0) 评论(0) 收藏 举报pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; displa…

我的网站域名上海电子商务网站制作

指针(1)学习流程 —————————————————————————————————————————————————————————————————————————————————————————————————————————————…

吴恩达深度学习课程一:神经网络和深度学习 第二周:神经网络基础(二)

此分类用于记录吴恩达深度学习课程的学习笔记。 课程相关信息链接如下:原课程视频链接:[双语字幕]吴恩达深度学习deeplearning.ai github课程资料,含课件与笔记:吴恩达深度学习教学资料 课程配套练习(中英)与答案…

08. 自定义组件

一、在单独文件中自定义组件我们可以在终端中使用 pip 安装 PySide6 模块。默认是从国外的主站上下载,因此,我们可能会遇到网络不好的情况导致下载失败。我们可以在 pip 指令后通过 -i 指定国内镜像源下载。 pip ins…

php网站的特点网站图标素材图片

作业1:设计界面 使用手动连接,将登录框中的取消按钮使用qt4版本的连接到自定义的槽函数中,在自定义的槽函数中调用关闭函数 将登录按钮使用qt5版本的连接到自定义的槽函数中,在槽函数中判断ui界面上输入的账号是否为"admin…

深入解析:板凳-------Mysql cookbook学习 (九--2)

深入解析:板凳-------Mysql cookbook学习 (九--2)pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas&quo…

20251006 模拟测 总结

\(\mathcal{Preface}\) 分数 \(90+100+100+30=320\)。 挂完了,呜。 \(\mathcal{Problem \space{} A}\) Tag:诈骗,循环。 减法可以出负数,我们希望最后的值最大,可以一开始用最小的值去减其他所有值,但是保留任意…

数据源切换之道

深入探讨SpringBoot动态数据源切换的两种核心实现:MyBatis插件与SpringAOP。从原理剖析到实战演练,从性能对比到生产避坑,为你提供全方位的数据源切换解决方案。大家好,我是 Mr.Sun,一名热爱技术和分享的程序员。…

个人网站 网站教程做网站用php吗

样例简介 智能煤气检测系统通过实时监测环境中烟雾浓度,当一氧化碳浓度超标时,及时向用户发出警报。在连接网络后,配合数字管家应用,用户可以远程配置智能煤气检测系统的报警阈值,远程接收智能煤气检测系统报警信息。…

网站制作有哪些企业做医疗健康类网站需要资质吗

一直以来听的多了,什么UDP广播之类的,不过自己一直没有试验过,这次闲来无聊,于是测试了一下。网上说的其实并不是非常的正确,流传着不少的错误言论,这次自己动手测试了一下,没想到比我想象中的还…

完整教程:tryhackme——Abusing Windows Internals(进程注入)

完整教程:tryhackme——Abusing Windows Internals(进程注入)pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "C…

向量存储vs知识图谱:LLM记忆系统技术选型

LLM本质上是无状态的,如果你了解HTTP协议就很好理解这个概念,但是如果你没接触过这,那么可以理解成它们没有短期记忆能力,每次和LLM交互,都得把之前的对话重新喂给它。 短期记忆或者说状态管理其实很好处理,拿几…

QBXT2025S刷题 Day5

今天更废了。 \(30pts\ rk84\)。 今天的题 T1 机房大部分人都做出来了,可是我只是打了个暴力(还没拿分)。 这道题其实可以把 \((b_1,b_2,b_3,b_4)\) 分为 \((b_1,b_2),(b_3,b_4)\) 两个部分。 这样的话,我们就可以…

做视频网站需要什么软件物流如何做网站

🌈个人主页:聆风吟 🔥系列专栏:图解数据结构、算法模板 🔖少年有梦不应止于心动,更要付诸行动。 文章目录 一. ⛳️算法的定义二. ⛳️算法的特性2.1 🔔输入输出2.2 🔔输入输出2.3 &…

以人类演示视频为提示,学习可泛化的机器人策略 - 指南

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

card

#include <bits/stdc++.h> using namespace std; #define P pair<char, char> #define mp(x, y) make_pair(x, y)vector< P > oper_list; const int len = 4; const int wide = 4; const int _size …

济宁企业网站建设wordpress页面发布不

打开题目 几次尝试&#xff0c;发现输1 1"&#xff0c;页面都会回显NO,Wrong username password&#xff01;&#xff01;&#xff01; 只有输入1&#xff0c;页面报错&#xff0c;说明是单引号的字符型注入 那我们万能密码试试能不能登录 1 or 11 # 成功登录 得到账号…