佛山市城乡住房建设局网站首页公众号可以开视频号?

news/2025/10/7 12:20:47/文章来源:
佛山市城乡住房建设局网站首页,公众号可以开视频号?,免代码开发平台,监控系统网站开发背景 近期工作中要解决两个问题#xff0c;一个是数据组需要网爬一些图片数据#xff0c;另外一个是要批量爬取公司用于文档协同的一个网站上的附件。于是乎#xff0c;就写了两个脚本去完成任务。 爬虫思路 第一步#xff1a;向确定的url发送请求#xff0c;接收服务器…背景 近期工作中要解决两个问题一个是数据组需要网爬一些图片数据另外一个是要批量爬取公司用于文档协同的一个网站上的附件。于是乎就写了两个脚本去完成任务。 爬虫思路 第一步向确定的url发送请求接收服务器的响应信息如果是需要用户登录的网页需要手动获取cookie信息放入header中或者模拟登录自动获取cookie。 第二步对接收到的信息进行解析找到需要的标签内容通常是我们需要的图片或文件的url 第三步向目标url发送请求保存数据到本地。 python在网络爬虫方面提供了一些框架Scrapy、Pyspider等由于我们要实现的都是小功能用一些现成的库即可。 爬取附件 1、发送简单请求用urllib.request.urlopenurl就可以了但如果要加入headers则可用urllib.request.Request类构造一个request实例再调用urlopen发送请求。如要用到cookie 如果要实现模拟登录自动获取cookie可参考爬虫实战学习笔记_2 网络请求urllib模块设置请求头Cookie模拟登陆-CSDN博客 import urllib.requestheaders {Cookie: confluence.list.pages.cookielist-content-tree;.......}req urllib.request.Request(url, headersheaders) response urllib.request.urlopen(req) 2、解析响应体这里是要找到附件链接的图标在html中是a classfilename的标签元素。用到BeautifulSoup。 from bs4 import BeautifulSouphtml response.read().decode(utf8) soup BeautifulSoup(html, lxml) a_list soup.find_all(a) for a in a_list:if class in a.attrs:if filename in a[class]:filename a.text.strip()download_url a[href]print(download_url) 3、获得文件下载地址后发送请求将返回的响应保存到本地即可。这里发请求用的requests库用urllib.request应该也可以。 import requestsfile requests.get(download_url, headersheaders) save_path ./download/ if not os.path.exists(save_path):os.mkdir(save_path) save_file open(os.path.join(save_path, filename), wb) save_file.write(file.content) save_file.close() print(save ok) 遗留问题 上述脚本可针对特定网页进行附件爬取但多个网页如何先获取到所有网页地址是个棘手的问题。目前只能通过搜寻url规律发现里面的pageId是9位数字字符大概确定了范围进行暴力遍历。 爬取图片 网上关于百度、google爬取关键字图片的开源代码很多我也是找了一个开源代码进行稍微修改目前满足实际需要。这里附上代码供参考。 # -*- coding: UTF-8 -*- import requests import tqdm import os import jsondef configs(search, page, number):url https://image.baidu.com/search/acjsonparams {tn: resultjson_com,logid: 11555092689241190059,ipn: rj,ct: 201326592,is: ,fp: result,queryWord: search,cl: 2,lm: -1,ie: utf-8,oe: utf-8,adpicid: ,st: -1,z: ,ic: 0,hd: ,latest: ,copyright: ,word: search,s: ,se: ,tab: ,width: ,height: ,face: 0,istype: 2,qc: ,nc: 1,fr: ,expermode: ,force: ,pn: str(60 * page),rn: number,gsm: 1e,1617626956685: }return url, paramsdef loadpic(number, page, path):while (True):if number 0:breakurl, params configs(search, page, number)try:response requests.get(url, headersheader, paramsparams).content.decode(utf-8)result json.loads(response)url_list []for data in result[data][:-1]:url_list.append(data[thumbURL])for i in range(len(url_list)):getImg(url_list[i], 60 * page i, path)bar.update(1)number - 1if number 0:breakpage 1except Exception as e:print(e)continueprint(\nfinish!)def getImg(url, idx, result_path):img requests.get(url, headersheader)file open(result_path str(idx 1) .jpg, wb)file.write(img.content)file.close()if __name__ __main__:search 溜冰 # 爬取的关键词number 100 #爬取的目标数量result_path os.path.join(os.getcwd(), search)if not os.path.exists(result_path):os.mkdir(result_path)header {User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36}bar tqdm.tqdm(totalnumber)page 0loadpic(number, page, result_path)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/930400.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

《二千年间》在线阅读

《二千年间》,作者:胡绳:https://www.dushu.com/guoxue/106674/

实用指南:Java 单例模式详解

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

oppoR9m刷Linux系统: 安装MTK USB VCOM驱动

前言全局说明安装MTK USB 驱动注意:刷机,会丢失用户:照片、聊天等信息资料。请备份基带等信息。请慎重刷机 !!! 注意:刷机,会丢失用户:照片、聊天等信息资料。请备份基带等信息。请慎重刷机 !!! 注意:刷机,会丢…

建设网站费用计入什么科目山东企业展厅设计公司

缓存技术在现代Web开发中至关重要,尤其是在高并发的环境中,缓存能够有效减少数据库访问压力、提高系统性能。Redis作为最流行的内存数据存储系统之一,常用于缓存管理。本节将讲解如何在Spring Boot项目中集成Redis,实现缓存管理&a…

数据结构与算法学习笔记(Acwing 提高课)----动态规划树形DP - 详解

数据结构与算法学习笔记(Acwing 提高课)----动态规划树形DP - 详解pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: &qu…

注册网站卖钱最多的人中山网站建设哪家便宜

我刚刚开始为Isis开发 OpenJPA对象库 。 在一般情况下,可以在persistence.xml文件中注册实体类型。 但是,Isis是一个框架,可以构建自己的元模型,并且可以自行确定哪些类构成实体。 因此,我不想强​​迫开发人员重复自己…

自己做网站还能挣钱吗家电网站建设

建立openstack quantum开发环境 作者:张华 发表于:2012-4-6 版权声明:可以任意转载,转载时请务必以超链接形式标明文章原始出处和作者信息及本版权声明 ( http://blog.csdn.net/quqi99 ) 上篇中讲了如何建立openstack的最小开发环…

可视化大屏工具对比:GoView、DataRoom、积木JimuBI、Metabase、DataEase、Apache Superset 与 Grafana - 实践

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

[特殊字符] FFmpeg 学习笔记 - 详解

[特殊字符] FFmpeg 学习笔记 - 详解pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco…

.NET周刊【9月第3期 2025-09-21】

国内文章 Runtime Async - 步入高性能异步时代 https://www.cnblogs.com/hez2010/p/19097937/runtime-async 本文详细阐述了同步与异步代码的区别以及 async/await 的机制。同步代码阻塞线程,异步代码则不阻塞线程,依…

通过实验直观理解神经网络:ReLU网络与几何解释

本文通过可视化实验探索ReLU神经网络的工作机制,从几何角度分析神经元如何通过折纸般的折叠操作逼近复杂函数,并讨论训练过程中的优化现象与边缘学习难题。ADD / XOR / ROL:帮助我更好理解神经网络的实验(第1篇) …

无锡网站公司哪家好网站访问慢的原因

基于springBoot旅游管理系统设计与实现 一、摘要 现代经济快节奏发展以及不断完善升级的信息化技术,让传统数据信息的管理升级为软件存储,归纳,集中处理数据信息的管理方式。本旅游管理系统就是在这样的大环境下诞生,其可以帮助…

网站专题设计稿免费网站建设软件推荐

第一部分:安装k8s 1.28.2: 注意:因国内无法访问Google ,需要使用阿里云进行安装 系统准备 更新系统:确保你的Ubuntu系统是最新的。运行以下命令来更新系统: sudo apt-get update sudo apt-get upgrade -y sudo apt-get dist-upgrade -y安装必要的工具:安装curl和其他可能需…

CCPC2023哈尔滨 游记(VP)

有史以来打的最差的一场区域赛 VP,$2t$ 获得铁尾。省流 有史以来打的最差的一场区域赛 VP,\(2t\) 获得铁尾。9.30 内含剧透,请vp后再来。 不是题解!!!!!!! 赛前 要放国庆假期,简和叶都说要提前走,这场在开…

2025教练技术行业深度剖析:目标人群、费用与品牌选择

在当今竞争激烈的商业环境中,教练技术作为一种提升个人和团队能力的有效工具,正逐渐受到广泛关注。那么,排名靠前的教练技术课程的目标人群是谁?费用大概多少?哪些品牌靠谱且性价比高呢?让我们一同深入探讨。 目…

统计备注

统计备注一些基础的统计学备注笔记统计备注 1、高斯分布图解

单例模式的类和静态方法的类的区别和使用场景 - 指南

单例模式的类和静态方法的类的区别和使用场景 - 指南2025-10-07 12:02 tlnshuju 阅读(0) 评论(0) 收藏 举报pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; dis…

LGP9871 [NOIP 2023] 天天爱打卡 学习笔记

LGP9871 [NOIP 2023] 天天爱打卡 学习笔记 Luogu Link 前言 经典题了属于是。写 \(\texttt{LGP12581}\) 时特此来回顾。 当年是有多么糖啊。希望现在只有棒棒没有糖吧。 题意简述 小 \(\text{T}\) 同学非常热衷于跑步。…

【OpenGL ES】Windows上OpenGL环境搭建

1 前言 ​ Windows 的图形 API 是 DirectX,对 OpenGL 的支持比较有限(系统自带的 opengl32.dll 仅支持 OpenGL 1.1 版本),因此在 Windows 上进行OpenGL 开发时,通常需要借助第三方库或工具来支持更高版本的 Op…