头条百度批量采集软件说明文档

  旧版说明文档《头条号文章批量采集软件4.0版本说明文档!头条/微头条文章批量采集》 头条的采集软件已经更新了好多个版本了,一直没有做详细的介绍文档,最近更新了一些功能进去,一块来写一下说明文档。

1、主界面

2、头条作者采集

 网址文件选择txt ,使用选择按钮选择,不要手动复制路径进去

保存目录选择一个文件夹

保存的格式有:

url:网址放在一个txt中去)、txt:一篇文章一个txt,图片自动下载到images目录下面、docx:保存成word、保存成html、数据存储成csv只存网址

最小阅读量:小于这个阅读量的文章不采集

翻页数量:作者列表的下拉次数

字数限制:文章内容低于这个数值不采集

时间限制:一定要按照给的示例进行填写,年-月-日 时:分:秒 个位数的数字补零,比如2025-01-02 03:04:12  这里面的01 02 03 04都补零了

下载图片的宽高限制,可以是200,意思宽高小于200不保存,也可以填200,300 宽小于200高小于300不下载

延迟时间:采集一篇之后的暂停时间

屏蔽图片:0不屏蔽图片下载,1屏蔽图片下载(意思就是不下载图片了)

裁剪像素:下载图片的时候,从底部往上裁剪图片像素,设置30-50即可

图文同目录:只对txt采集模式有效,设置1,txt保存的时候会保存到文章图片目录下面,0就是常规模式

屏蔽词:一行一个,文章中包含里面的关键词不采集,不要有空行 

头条cookie:我提供的cookie有效尽量不要换,换了可能采集不到

强制监控采集:无限循环作者列表进行采集,慎用,可能会被反爬

采集头条文章/微头条文章,这里不做说明了。

2、头条链接采集

这里是我们整理好头条网址或者微头条网址,放到txt中,软件调用进行采集,比如:有些客户可以从易撰这种网站下载爆文网址,那么可以用这个功能,把文章和图片下载到本地。

这里要说明一点,如果是我们下载的微头条网址中,不带/w/我们需要把下载的网址改动一下,比如我们从易撰下载下来的微头条网址是https://www.toutiao.com/item/123/,我们需要改成https://www.toutiao.com/w/123/这种个样式的,把item改成w,这样软件才能识别。

网址文件:调用txt文件,使用选择按钮进行选择

保存目录:使用选择按钮,选择一个保存目录

保存txt:把数据保存成txt

保存docx:把数据保存成docx

裁剪像素:和上面的原理一样,裁剪图片。

txt图文同目录:只针对txt数据,把txt保存到文章图片目录下面去

采集模式:爬虫模式是直接爬取源码,网页模式是驱动谷歌浏览器进行采集,使用网页模式爬取的时候,一定要使用自己头条账号的cookie,很多链接只有登录才会看的到,否则会出现一个头条的登录页面。

3、头条热点采集

采集最新热点资讯关键词,注意使用频次,不要太快。

 保存关键词:保存热点关键词

保存txt:根据热点关键词采集相关文章保存txt

保存docx:根据热点关键词采集相关文章保存成docx

文章下载数量:一个关键词采集相关文章的数量

时间间隔:采集一篇之后的暂停时间

4、按照百家作者采集

UK文件存放是百家作者的UK id,打开百家作者主页,右键查看源代码,ctrl+f 搜索 uk ,匹配上的第一个字段值,就是百家作者的uk id,一行一个,放到txt中,使用选择按钮调用该文件。

百家的一些设置项目和头条作者的基本是一致的,其中有一个不同是:生成竖图,这个地方是为了发布百家的时候方便调用竖图缩略图设置的,这个功能是从作者百家号发布软件迁移过来的,可以选择生成,也可以选择不生成,自定义即可。

标题禁止包含关键词:一行一个,标题中包含这些关键词,就不采集该文章。

百度cookie:使用自己百度账号的cookie 即可。 

5、百家链接采集

把整理好的百家号文章链接,百度动态文章链接,整理好,放到txt中让软件调用,软件就可以自动以采集了,设置选项和头条按照链接采集的基本一致。

采集模式也是两种 ,爬虫模式、网页模式

6、软件下载链接:

百度网盘下载链接: https://pan.baidu.com/s/1C9nt4NHr49jzSY-J6pF0ZQ?pwd=e2cb 提取码: e2cb
蓝奏云下载地址:https://wwyl.lanzouv.com/b0r9o03qf密码:4zdg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/70740.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

echarts 3d中国地图飞行线

一、3D中国地图 1. 一定要使用 echarts 5.0及以上的版本; 2. echarts 5.0没有内置中国地图了。点击下载 china.json; 3. 一共使用了四层地图。 (1)第一层是中国地图各省细边框和展示南海诸岛; (2)第二层是…

gitlab多项目流水线

背景是我有多个项目,希望其中一个项目被触发的时候,联动另外一个项目自动打包。然后我就看文档尝试操作了一下,所以有本文。 官方文档参考:https://gitlab.cn/docs/14.5/jh/ci/pipelines/multi_project_pipelines.html 不知道是不…

ffmpeg基本用法

一、用法 ffmpeg [options] [[infile options] -i infile]... {[outfile options] outfile}... 说明: global options:全局选项,应用于整个 FFmpeg 进程,它们通常不受输入或输出部分的限制。 infile options:输入选…

Kong故障转移参数配置

一、Passive Health Check Healthchecks.Passive.Unhealthy.HttpStatuses 含义: 列出了被认为是“不健康”的HTTP状态码。目的: 当健康检查(Healthcheck)返回这些状态码时,系统会认为服务不健康,并可能触…

Unity游戏(Assault空对地打击)开发(7) 爆炸效果

效果 准备 首先请手搓一个敌军基地。 然后添加一个火焰特效插件或者自建。 爆炸脚本编写 新建一个脚本命名为Explode。 无需挂载到对象上。 首先是全部代码。 using System.Collections; using System.Collections.Generic; using System.Linq; using TMPro; using UnityEngine…

NLP面试之-激活函数

一、动机篇 1.1 为什么要有激活函数? 数据角度:由于数据是线性不可分的,如果采用线性化,那么需要复杂的线性组合去逼近问题,因此需要非线性变换对数据分布进行重新映射;线性模型的表达力问题:由于线性模型…

Leetcode面试经典150题刷题记录 —— 二分查找篇

Leetcode面试经典150题刷题记录-系列Leetcod面试经典150题刷题记录——数组 / 字符串篇Leetcod面试经典150题刷题记录 —— 双指针篇Leetcod面试经典150题刷题记录 —— 矩阵篇Leetcod面试经典150题刷题记录 —— 滑动窗口篇Leetcod面试经典150题刷题记录 —— 哈希表篇Leetcod…

Vue 和 dhtmlx-gantt 实现图表构建动态多级甘特图效果 ,横坐标为动态刻度不是日期

注意事项:1、横坐标根据日期转换成时间刻度在( gantt.config.scales);2、获取时间刻度的最大值(findMaxRepairTime);3、甘特图多级列表需注意二级三级每个父子id需要唯一(convertData) 安装依赖 npm install dhtmlx-gantt --save 在当前页引入和配置 dhtmlx-gantt im…

如何避免大语言模型中涉及丢番图方程的问题

希尔伯特第十问题是一个著名的数学问题,涉及不定方程(又称为丢番图方程)的可解答性。然而在大模型中,我们希望问题都是确定的可解的,或者说要尽可能的想办法避免不确定的不可解问题。由于丢番图方程问题是不可判定问题(即不存在一个有效的算法能够解决该类问题的所有实例…

windows server独立部署Qwen2.5-vl-7B

服务器配置信息 CPU:64G GPU:48G(RTX 4090) 一、使用conda下载模型 Qwen2.5-VL-7B-Instruct conda下载 conda create --name qwen python3.11 conda activate qwen 魔塔社区下载模型 pip install modelscope modelscope downl…

2025影视泛目录站群程序设计_源码二次开发新版本无缓存刷新不变实现原理

1. 引言 本设站群程序计书旨在详细阐述苹果CMS泛目录的创新设计与实现,介绍无缓存刷新技术、数据统一化、局部URL控制及性能优化等核心功能,以提升网站访问速度和用户体验。 2. 技术概述 2.1 无缓存刷新技术 功能特点: 内容不变性&#x…

在大型语言模型(LLM)框架内Transformer架构与混合专家(MoE)策略的概念整合

文章目录 传统的神经网络框架存在的问题一. Transformer架构综述1.1 transformer的输入1.1.1 词向量1.1.2 位置编码(Positional Encoding)1.1.3 编码器与解码器结构1.1.4 多头自注意力机制 二.Transformer分步详解2.1 传统词向量存在的问题2.2 详解编解码…

WiFi配网流程—SmartConfig 配网流程

目录 📌 SmartConfig 配网流程 👉 阶段 1:设备进入配网模式 👉 阶段 2:手机 App 发送 Wi-Fi 配置信息 👉 阶段 3:设备解析 Wi-Fi 配置,连接家庭网络 👉 阶段 4&…

win10 llamafactory模型微调相关②

微调 使用微调神器LLaMA-Factory轻松改变大语言模型的自我认知_llamafactory 自我认知-CSDN博客 【大模型微调】使用Llama Factory实现中文llama3微调_哔哩哔哩_bilibili 样本数据集 (数据集管理脚本处需更改,见报错解决参考1) 自我认知微…

从基础到人脸识别与目标检测

前言 从本文开始,我们将开始学习ROS机器视觉处理,刚开始先学习一部分外围的知识,为后续的人脸识别、目标跟踪和YOLOV5目标检测做准备工作。我采用的笔记本是联想拯救者游戏本,系统采用Ubuntu20.04,ROS采用noetic。 颜…

TCP长连接、HTTP短轮询、HTTP长轮询、HTTP长连接、WebSocket的区别

1.TCP长连接 (1)概念:该连接属于传输层的协议。客户端和服务器之间建立连接后,不立即断开该连接,而是一直保持这个状态,以便后续数据的持续、连续传输。(2)应用场景:适合…

【Linux Oracle】杂货铺 日常实用2024

1.跨服务器移动文件 passwd=^T^bxxxx `/usr/bin/expect <<-EOF set timeout -1 spawn scp -r ${BATCH_TIME} sxnhtc@192.168.3.x:${EXP_MCRO_DIR}/ expect "*password:" send "$passwd\r" interact expect eof EOF` curl -k -X GET https://192.16…

索引失效的14种常见场景

在 MySQL 中&#xff0c;索引有时可能会失效&#xff0c;导致查询性能下降。以下是常见的 14 种场景&#xff0c;在这些场景下&#xff0c;索引可能会失效 1. 使用 OR 连接多个条件 场景: 当查询中包含 OR 时&#xff0c;如果 OR 连接的多个条件中有一个没有使用索引&#xff0…

06排序 + 查找(D2_查找(D2_刷题练习))

目录 1. 二分查找-I 1.1 题目描述 1.2 解题思路 方法&#xff1a;二分法&#xff08;推荐使用&#xff09; 2. 二维数组中的查找 2.1 题目描述 2.2 解题思路 方法一&#xff1a;二分查找&#xff08;推荐使用&#xff09; 3. 寻找峰值 3.1 题目描述 3.2 解题思路 方…

防火墙综合练习2

准备阶段 实验拓扑图如下&#xff1a; 试验要求如下&#xff1a; 需求一&#xff1a;完成相关配置 需求二&#xff1a;配置DHCP协议 需求三&#xff1a;防火墙安全区域配置 需求四&#xff1a;防火墙地址组信息 需求五&#xff1a;管理员 需求六&#xff1a;用户认证…