采集需要登录网站的教程

有些网站需要用户登录才能显示相关信息,如果要采集这类网站,有以下几个方法:

    1. 写发布模块来抓包获取post的数据;

    2. 有些采集器内置浏览器获取这些信息,但是经常获取的不准确,可靠性太低;

    3. 获取到登录后网站cookie ,用采集器模拟用户登录来采集;

简数采集器使用第3种方法,操作相对简单,可靠性高。

详细步骤如下:

 一、获取登录网站后的cookie方法

方式1---最简单的方法是通过现代浏览器来获取,以chrome为例:

1. F12或右键检查进入开发者模式界面;

2. 点击NetWork,F5重新加载页面;

3. 选择对应页面名称的html文件;

4. 获取cookie;

方式2---还可以使用fiddler工具来进行抓取

fiddler是介于客户端和服务器端的HTTP代理,也是常用的http抓包工具之一 。 它可以记录下客户端和服务器之间的所有HTTP请求,也可以针对指定的HTTP请求,进分析请求数据、设置断点、修改请求的数据,甚至还可以修改服务器返回的数据,功能十分强大,是网站调试的得力助手。

fiddler官网下载: Download Fiddler Web Debugging Tool for Free by Telerik

下载安装完成后,按照以下流程来操作:(本文章是基于Fiddler 4版本)

1.  右侧显示页面中先选择Inspectors栏;

        

2. 由于左侧显示页面已有许多访问网站的信息,我们接下先清空一下,方便接下来寻找指定的网页;

可以用快捷键ctrl+x或者在左侧显示页面右键Remove------>>all sessions;

            

           

3.  接下来登陆上需要抓取cookie的网站或者刷新已经登录的网页,就可以在左侧显示栏轻松找到网站的Host(网站域名)+ URL,以我这个

例子,选取的就是这一条,注意URL内容是斜杠 /  的那一条信息;

             

4. 右边显示栏选择raw栏,这时能看到获取的cookie了;

          

5. 为了获取完整的cookie,我们点击右侧显示栏中间的view in Notepad,即打开记事本来获取完整的cookie;

          


 

二、获取的cookie填写入简数

最后把获取的cookie和user-engent信息拷贝到采集器中,再打开详情提取器即可查看到之前隐藏的内容;

简数采集器有三处入口可填写cookie:

I、新建任务时,高级选项处:

II、点击  “启动 | 定时采集 ”  ,在网络配置中填上相关信息;

III、打开提起器左侧列表下方的网络配置:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/83871.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

六足连杆爬行机器人的simulink建模与仿真

目录 1.课题概述 2.系统仿真结果 3.核心程序 4.系统原理简介 5.完整工程文件 1.课题概述 六足连杆爬行机器人的simulink建模与仿真。通过simulink,对六足机器人的六足以及机身进行simulink建模,模拟其行走,仿真输出机器人行走时六足的坐…

什么是物联网 (IoT):2024 年物联网概述

物联网(IoT)是一个有望彻底改变我们生活、工作以及与环境互动方式的概念。如今,越来越多的新兴企业和老牌企业都在利用物联网的力量创造创新产品与服务。正因为这一转变,互联互通已成为我们生活中不可或缺的一部分,科技…

MVC入门(5)-- HttpMessageConverter 消息转换器

概念 HttpMessageConverter 是 Spring 框架中用于处理 HTTP 请求和响应数据的核心接口,负责在 Java 对象与 HTTP 消息体(请求体或响应体)之间进行双向转换。简单来说,它是 Spring 用来将 HTTP 请求中的原始数据(如 JS…

Spark,连接MySQL数据库,添加数据,读取数据

以下是使用Spark连接MySQL数据库、添加数据和读取数据的步骤(基于Scala API): 1. 准备工作 - 添加MySQL驱动依赖 在Spark项目中引入MySQL Connector JAR包(如 mysql-connector-java-8.0.33.jar ),或通过Sp…

关于 APK 反编译与重构工具集

一、apktool — APK 解包 / 重打包 apktool 是一款开源的 Android APK 工具,用于: 反编译 APK 查看资源和布局文件 生成 smali 文件(DEX 的反汇编) 对 APK 进行修改后重新打包 它不能还原 Java 源码,只能将 D…

[解决方案] Word转PDF

背景: 之前做过一些pdf导出, 客户提了一个特别急的需求, 要求根据一个模版跟一个csv的数据源, 批量生成PDF, 因为之前用过FOP, 知道调整样式需要特别长的时间, 这个需求又特别急, 所…

01 基本介绍及Pod基础

01 查看各种资源 01-1 查看K8s集群的内置资源 [rootmaster01 ~]# kubectl api-resources NAME SHORTNAMES APIVERSION NAMESPACED KIND bindings v1 …

19 C 语言位运算、赋值、条件、逗号运算符详解:涵盖运算符优先级与复杂表达式计算过程分析

1 位运算符 位运算符是对整数的二进制表示&#xff08;补码形式&#xff09;进行逐位操作的运算符。以下是主要的位运算符及其功能描述&#xff1a; 运算符描述操作数个数副作用&按位与2无|按位或2无^按位异或2无~按位取反1无<<按位左移2无>>按位右移2无 1.1…

哈希查找方法

已知哈希表长度为11&#xff0c;哈希函数为H&#xff08;key&#xff09;&#xff1d;key&#xff05;11&#xff0c;随机产生待散列的小于50的8个元素&#xff0c;同时采用线性探测再散列的方法处理冲突。任意输入要查找的数据&#xff0c;无论是否找到均给出提示信息。 int f…

JavaScript性能优化实战(10):前端框架性能优化深度解析

引言 React、Vue、Angular等框架虽然提供了强大的抽象和开发效率,但不恰当的使用方式会导致严重的性能问题,针对这些问题,本文将深入探讨前端框架性能优化的核心技术和最佳实践。 React性能优化核心技术 React通过虚拟DOM和高效的渲染机制提供了出色的性能,但当应用规模…

类和对象------2

目录 一. C面向对象模型初探1 .成员变量和函数的存储 二 this指针1 &#xff09;this指针工作原理2 &#xff09;this指针的使用3&#xff09; const修饰成员函数4 &#xff09;const修饰对象(常对象) 3.友元1 )友元语法2) 课堂练习 4 强化训练(数组类封装) 四 运算符重载&…

量子计算在金融科技中的应用前景

随着量子计算技术的飞速发展&#xff0c;其在各行业的应用潜力逐渐显现&#xff0c;金融科技领域更是备受关注。量子计算的强大计算能力有望为金融行业带来前所未有的变革&#xff0c;从风险评估到投资组合优化&#xff0c;从高频交易到加密技术&#xff0c;量子计算都可能成为…

Redisson 四大核心机制实现原理详解

一、可重入锁&#xff08;Reentrant Lock&#xff09; 可重入锁是什么&#xff1f; 通俗定义 可重入锁类似于一把“智能锁”&#xff0c;它能识别当前的锁持有者是否是当前线程&#xff1a; 如果是&#xff0c;则允许线程重复获取锁&#xff08;重入&#xff09;&#xff0c;并…

srs-7.0 支持obs推webrtc流

demo演示 官方教程: https://ossrs.net/lts/zh-cn/blog/Experience-Ultra-Low-Latency-Live-Streaming-with-OBS-WHIP 实现原理就是通过WHIP协议来传输 SDP信息 1、运行 ./objs/srs -c conf/rtc.conf 2、obs推流 3、web端播放webrtc流 打开web:ht

面试题——JDBC|Maven|Spring的IOC思想|DI思想|SpringMVC

目录 一、JDBC 1、jdbc连接数据库的基本步骤&#xff08;掌握**&#xff09; 2、Statement和PreparedStatement的区别 &#xff08;掌握***&#xff09; 二、Maven 1、maven的作用 2、maven 如何排除依赖 3、maven scope作用域有哪些&#xff1f; 三、Spring的IOC思想 …

从代码学习数学优化算法 - 拉格朗日松弛 Python版

文章目录 前言1. 问题定义 (Problem Definition)2. 拉格朗日松弛 (Lagrangian Relaxation)3. 拉格朗日对偶问题 (Lagrangian Dual)4. 次梯度优化 (Subgradient Optimization)5. Python 代码实现导入库和问题定义辅助函数:求解拉格朗日松弛子问题次梯度优化主循环结果展示与绘图…

密码学实验

密码学实验二 一、实验目的&#xff08;本次实验所涉及并要求掌握的知识点&#xff09; 掌握RSA算法的基本原理并根据给出的RSA算法简单的实现代码源程序,以及能够使用RSA对文件进行加密。掌握素性测试的基本原理&#xff0c;并且会使用Python进行简单的素性测试以及初步理解…

力扣面试150题-- 从中序与后序遍历序列构造二叉树

Day 44 题目描述 思路 这题类似与昨天那题&#xff0c;首先来复习一下&#xff0c;后序遍历&#xff0c;对于后序遍历每一个元素都满足以下规律&#xff1a; &#xff08;左子树&#xff09;&#xff08;右子树&#xff09;&#xff08;根&#xff09;&#xff0c;那么我们直…

2区组的2水平析因实验的混区设计

本文是实验设计与分析&#xff08;第6版&#xff0c;Montgomery著傅珏生译)第7章2k析因的区组化和混区设计第7.4节的python解决方案。本文尽量避免重复书中的理论&#xff0c;着于提供python解决方案&#xff0c;并与原书的运算结果进行对比。您可以从Detail 下载实验设计与分析…

反向传播算法——矩阵形式递推公式——ReLU传递函数

总结反向传播算法。 来源于https://udlbook.github.io/udlbook/&#xff0c;我不明白初始不从 x 0 \boldsymbol{x}_0 x0​开始&#xff0c;而是从 z 0 \boldsymbol{z}_0 z0​开始&#xff0c;不知道怎么想的。 考虑一个深度神经网络 g [ x i , ϕ ] g[\boldsymbol{x}_i, \bold…