什么星网站做调查问卷的wordpress cms

news/2025/9/23 13:17:01/文章来源:
什么星网站做调查问卷的,wordpress cms,精品网站建设电话,外贸网站建设的重要性目的#xff1a;学习笔记2.首先我们试着爬取下来一篇文章的评论#xff0c;通过搜索发现在 response里面我们并没有匹配到评论#xff0c;说明评论是动态加载的。3.此时我们清空请求#xff0c;收起评论#xff0c;再次打开评论 4.完成上面操作后#xff0c;我们选择XHR学习笔记2.首先我们试着爬取下来一篇文章的评论通过搜索发现在 response里面我们并没有匹配到评论说明评论是动态加载的。3.此时我们清空请求收起评论再次打开评论 4.完成上面操作后我们选择XHR可以发现点击评论的时候发送了3个请求。 5.我们点击带comments的请求然后在response里搜索可以匹配到评论返回的是json数据说明评论请求是这条没错了请求链接在上图现在咱先不管请求链接的组合规则是什么继续往下 6.接下来 打开json.cn复制response里的json数据粘贴进去7。分析json数据一个object包含一条评论的所有信息比如评论人评论内容等等我们需要写代码从里面把相关的信息搞出来。8.现在我们知道了请求链接urlhttps://www.zhihu.com/api/v4/articles/258812959/root_comments?ordernormallimit20offset20statusopen 请求方式为request 可以开始写代码获取相关信息了 代码 import requests import json url https://www.zhihu.com/api/v4/articles/258812959/root_comments?ordernormallimit20offset20statusopen Headers { User-Agent: Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.79 Safari/537.36, referer: https://www.zhihu.com/ } resrequests.get(url,headersHeaders).content.decode(utf-8) jsonfilejson.loads(res) next_pagejsonfile[paging][is_end] print(next_page) for data in jsonfile[data]: iddata[id] contentdata[content] authordata[author][member][name] print(id,content,author) 打印效果9.至此我们打印了知乎上面第一页第一个话题第一页评论下面我们来思考怎么抓取该话题的所有评论。 10.我们点击第二页 获取到请求urlhttps://www.zhihu.com/api/v4/answers/1307614528/root_comments?ordernormallimit20offset20statusopen 对比第一页的url1https://www.zhihu.com/api/v4/answers/1307614528/root_comments?ordernormallimit20offset0statusopen 可以发先offset由0变成了20继续分析后面页面可得每过一页offset便加20。 那么一直加20什么时候会是个头呢这时我们翻到最后一页分析最后一页的json数据发现 is_end的值为Ture所以我们可以用一个while循环当is_endTure时 break掉就行11.代码 import requests import json from lxml import etree import re i0 while True: urlhttps://www.zhihu.com/api/v4/articles/258812959/root_comments?ordernormallimit20offset{}statusopen.format(i) i20 Headers { User-Agent: Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.79 Safari/537.36, referer: https://www.zhihu.com/ } res requests.get(urlurl, headersHeaders).content.decode(utf-8) jsonfilejson.loads(res) next_pagejsonfile[paging][is_end] print(next_page) comp re.compile(?\w[^]*) for data in jsonfile[data]: contentcomp.sub(,data[content]) authordata[author][member][name] print(昵称---author,评论:content) if next_pageTrue: break 通过分析可以看出只有前面那串数字不一样于是可以得出前面那串数字是控制不同话题的 13.接下来我们从话题来找关联发先能在response里面匹配到信息于是我打算动手直接写代码把相关信息提前出来代码 import requests,json from lxml import etree Headers { User-Agent: Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.79 Safari/537.36, cookie: _zap3935ec64-2d91-4666-903c-a641b2510b18; d_c0AOBcn_xhAxKPToowOy9HNL3DgDozDHDt63I|1602244658; capsion_ticket2|1:0|10:1604449780|14:capsion_ticket|44:YjAwODdlMjcxNzY4NGYwODlmNjgxMzYyNWFkZDJlYTI|6312ca79725710f1810a97a1fe3c4bbd6d16d02f769891626a67124cba7dd1f9; z_c02|1:0|10:1604449808|4:z_c0|92:Mi4xVnlXQUNBQUFBQUFBNEZ5Zl9HRURFaVlBQUFCZ0FsVk5FRVNQWUFDOUlsV1pKa2hZUTdvc1U5Z1cxbTluajk5UW5n|dc09f94f0b3e78d3d80f6d18da39109a38b3357154e275642bec5e4afa4c825b; tstr; q_c1097e8b52467b4017a4f27f26dd8622c2|1604625864000|1604625864000; _xsrf88ef577a-c34c-49a1-8a13-faf8cd85c55a; KLBRSID4843ceb2c0de43091e0ff7c22eadca8c|1605003647|1604996383, referer: https://www.zhihu.com/ } url1https://www.zhihu.com/ resrequests.get(url1,headersHeaders).text htmletree.HTML(res) divs html.xpath(//div[classCard TopstoryItem TopstoryItem--old TopstoryItem-isRecommend]) for div in divs: titlediv.xpath(.//h2//a[target_blank]/text())[0] linkdiv.xpath(.//h2//a[target_blank]/href)[0] link_numlink.split(/)[-1] print(link_num) 运行结果:14.如上面结果可以发现link_num刚好是可以控制话题滴。 于是开始写代码 import requests,json from lxml import etree headers { User-Agent: Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.79 Safari/537.36, cookie: _zap3935ec64-2d91-4666-903c-a641b2510b18; d_c0AOBcn_xhAxKPToowOy9HNL3DgDozDHDt63I|1602244658; capsion_ticket2|1:0|10:1604449780|14:capsion_ticket|44:YjAwODdlMjcxNzY4NGYwODlmNjgxMzYyNWFkZDJlYTI|6312ca79725710f1810a97a1fe3c4bbd6d16d02f769891626a67124cba7dd1f9; z_c02|1:0|10:1604449808|4:z_c0|92:Mi4xVnlXQUNBQUFBQUFBNEZ5Zl9HRURFaVlBQUFCZ0FsVk5FRVNQWUFDOUlsV1pKa2hZUTdvc1U5Z1cxbTluajk5UW5n|dc09f94f0b3e78d3d80f6d18da39109a38b3357154e275642bec5e4afa4c825b; tstr; q_c1097e8b52467b4017a4f27f26dd8622c2|1604625864000|1604625864000; _xsrf88ef577a-c34c-49a1-8a13-faf8cd85c55a; KLBRSID4843ceb2c0de43091e0ff7c22eadca8c|1605003647|1604996383, referer: https://www.zhihu.com/ } url1https://www.zhihu.com/ resrequests.get(url1,headersheaders).text htmletree.HTML(res) divs html.xpath(//div[classCard TopstoryItem TopstoryItem--old TopstoryItem-isRecommend]) for div in divs: titlediv.xpath(.//h2//a[target_blank]/text())[0] linkdiv.xpath(.//h2//a[target_blank]/href)[0] link_numlink.split(/)[-1] i0 print(f.........................................标题为{title} ...........................................................) while True: url2https://www.zhihu.com/api/v4/answers/{}/root_comments?ordernormallimit20offset{}statusopen.format(link_num,i) i 20 print(f正在打印第{i / 20}页。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。) res requests.get(url2, headersheaders).content.decode(utf-8) jsonfile json.loads(res) next_page jsonfile[paging][is_end] # print(next_page) for data in jsonfile[data]: id data[id] content data[content] author data[author][member][name] print(f{author}评价{content}) if next_page True: break 运行结果截图至此完成了第一页全话题 全评论的爬取. 写道这里发现知乎的话题也是动态加载的并不需要翻页很多数据都是通过json传入而且需要传入cookie才可以进行爬取 最后代码写的不够完善至少加强自己对爬虫的理解有些地方需添加异常处理的。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/912656.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

icon psd下载网站重庆建设工程信息网官网app

文章目录 引言01 Linux安装Docker1.安装yum-utils软件包2.安装docker3.启动docker4.设置docker自启动5.配置Docker使用systemd作为默认Cgroup驱动6.重启docker 02 docker部署Flink1.18版本1.拉取最新镜像2.检查镜像3.编写dockerFile文件4.执行dockerFile5.检查flink是否启动成功…

网站关键词推广方案wordpress tomcat

基于SpringBoot的“篮球竞赛预约平台”的设计与实现(源码数据库文档PPT) 开发语言:Java 数据库:MySQL 技术:SpringBoot 工具:IDEA/Ecilpse、Navicat、Maven 系统展示 系统总体结构图 平台首页界面图 用户注册界面…

网站同步微博河北邢台有几个区县

淘宝商品描述API接口是淘宝开放平台提供的一种高效、便捷的新途径,旨在帮助开发者轻松获取淘宝商品的详细描述信息。通过这一接口,商家、开发者和用户都能获得商品标题、描述、属性、价格、图片等关键信息,从而满足各种业务需求。 在使用淘宝…

详细介绍:Java与Vue构建资产设备全周期管理系统,覆盖采购、入库、使用、维护至报废全流程,支持移动端实时操作与后台智能管理,提供完整源码便于二次开发

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

使用WTAPI开发智能微信机器人文档

使用WTAPI开发智能微信机器人文档 首先了解一下微信机器人API是什么? WTAPI是一个能将个人微信各项功能提取成可供开发人员调用的一套私有API接口,比如微信的收发消息,发朋友圈,群聊,建群等等都是可以用API接口来…

[Android]自定义view - 详解

[Android]自定义view - 详解pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco",…

【GPT入门】第58课 感性认识Imdeploy介绍与实践 - 详解

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

怎么为网站做外链企业网站建设的服务类型有哪些

欧洲证券与市场管理局(ESMA)宣布,欧洲监管机构(EBA、EIOPA和ESMA - 即ESA的联合上诉委员会)一致决定驳回迪拜商品清算公司(DCCC)对ESMA提起的上诉,并因此确认ESMA决定撤销其认可。DC…

网站meta模板网站关键词seo推广公司哪家好

Problem: 蓝桥杯 完全二叉树的权值 文章目录 思路解题方法前缀和双指针 复杂度前缀和Code双指针Code 思路 这个问题是关于完全二叉树的权值。完全二叉树的特性是,除了最后一层外,其他各层的节点数都达到最大,且最后一层从左向右连续。在这个问…

广西桂林网站建设搭建集团网站

主要针对英文文献 1 基本环境 连字符 不同长度的"-"表示不同含义。 一个"-"长度的连字符用于词中两个"-"长度的连字符常用于制定范围三个"-"长度的连字符是破折号数学中的负数要用数学环境下的-得到 强调 在正式文章中, 通常不…

北京网站搜索优化WordPress对接阿里云cdn

一、LeetCode 491.递增子序列 题目链接/文章讲解/视频讲解:https://programmercarl.com/0491.%E9%80%92%E5%A2%9E%E5%AD%90%E5%BA%8F%E5%88%97.html 状态:已解决 1.思路 这道题看似和90题差不多,都是求子集并且有重复元素,但实则…

广州网站建设小程序开发做积分网站

目录 一、选择题二、编程题1、字符串中找出连续最长的数字串2、数组中出现次数超过一半的数字 一、选择题 1、以下程序的输出结果是&#xff08;&#xff09; #include <stdio.h> int main() {char a[10] { 1, 2, 3, 4, 5, 6, 7, 8, 9, 0 }, * p;int i;i 8;p a i;p…

照片管理网站模板下载wordpress官网入口中文

目的&#xff1a;在 ipad 上安装 ipa 文件 首先需要在 mac 端安装 itools pro 下载地址&#xff1a;https://www.thinkskysoft.com/itools/ 然后下载 ipa > 需要有签名的&#xff0c;不然安装不了 然后用数据线连接 ipad 和 mac&#xff0c;应用 -> 安装

兰州网站建设推广报价温州网站开发多少钱

1.简介 在实际工作中&#xff0c;我们经常会听到数据库的性能和稳定性等等&#xff0c;这些有时候也需要测试工程师去评估和测试&#xff0c;上一篇文章主要介绍了jmeter连接和创建数据库测试计划的过程,在文中通过示例和代码非常详细地介绍给大家&#xff0c;希望对各位小伙伴…

不定高元素动画实现方案(下)

最近接了一个需求,需要实现一个列表,列表可展开收起,展开收起需要有一个动画效果,而列表个数不定且每项内容高度也不固定,所以是一个不定高的收起展开效果,于是特意抽时间尝试了一些动画实现方案,特此记录前情 …

Zabbix7 监控USG6300E 并发IPv4会话数 - 教程

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

商城网站开发 多少钱哪个网站可以接任务做兼职

文章目录 1 untiy和网页相互通信2 打开新页面&#xff08;同标签页和新标签页&#xff09;3 获取网页的URL4 解析Url内的参数5 后处理与色彩空间问题 1 untiy和网页相互通信 看这个文章 2 打开新页面&#xff08;同标签页和新标签页&#xff09; 先看本文untiy和网页相互通信…

网站推广专员面试少儿编程加盟店8

此项目模板是使用Create React App构建的&#xff0c;它提供了一种简单的方法来启动React项目而无需构建配置。 使用Create-React-App构建的项目包括对ES6语法的支持&#xff0c;以及几种非官方/尚未最终形式的Javascript语法 先看效果 这个例子可以帮助你深入理解在 Redux 中 …

网站开发实训教程jsp网站开发介绍

需要使用到 Pretty Json插件。 一、安装方法 sublime 下&#xff0c;按快捷键 Comand control p&#xff0c; 输入install Package,然后回车 等几秒钟&#xff0c;加载启动进程完毕后弹出的页面中输入pretty json, 然后回车 等待几秒钟&#xff0c;可以查看Sublime 最下面的…

做自我介绍的网站的图片素材龙岩淘宝设计

Description Input 第一行为两个整数n, m。第二行有n个整数&#xff0c;为a1&#xff0c;a2, …, an。 Output 包含n行&#xff0c;每行m个1~nm的正整数&#xff0c;各不相同&#xff0c;以空格分开。如果有多解&#xff0c;输出任意一组解&#xff1b;如果无解&#xff0c;输出…