【爬虫工具】2025微博采集软件,根据搜索关键词批量爬帖子,突破50页限制!

文章目录

  • 一、背景分析
    • 1.1 开发背景
    • 1.2 软件界面
    • 1.3 结果展示
    • 1.4 软件说明
  • 二、主要技术
    • 2.1 模块分工
    • 2.2 部分代码
  • 三、使用介绍
    • 3.0 填写cookie
    • 3.1 软件登录
    • 3.2 采集wb帖子
  • 四、演示视频
  • 五、软件首发

本工具仅限学术交流使用,严格遵循相关法律法规,符合平台内容的合法及合规性,禁止用于任何商业用途!

一、背景分析

1.1 开发背景

微博是国内非常流行的社交媒体平台,内容主要以文字和图片为主,在实时性和KOL关注热度方面尤为突出。广大网友在平台上大量输出自己的观点、看法,组成了一个活跃度极高的社区群体。同时,我本人也发现,每次热点事件爆发的时候,热搜也是所有媒体平台里最先曝光的平台(其他平台或多或少都有一些延迟)

基于此,我用python开发了一个爬虫采集软件,叫【爬微博搜索软件】,下面详细介绍。

1.2 软件界面

软件界面,如下:

软件运行中

1.3 结果展示

爬取结果:(截图中展示的就是全部字段了)

爬取结果

1.4 软件说明

几点重要说明,请详读了解:

1. Windows用户可直接双击打开使用,无需Python运行环境,非常方便!
2. 软件通过爬虫程序爬取,经本人专门测试,运行持久,稳定性较高!
3. 先在cookie.txt中填入自己的cookie值,方便重复使用(内附cookie获取方法)
4. 支持多个关键词串行爬取
5. 支持按时间段范围采集贴子
6. 爬取过程中,每爬一页,存一次csv。并非爬完最后一次性保存!防止因异常中断导致丢失前面的数据(每条间隔1~2s)
7. 爬取过程中,有log文件详细记录运行过程,方便回溯 
8. 结果csv含11个字段,有:关键词,页码,围脖id,围脖链接,用户昵称,用户主页链接,发布时间,转发数,评论数,点赞数,围脖内容。 

以上是现有功能,软件版本持续更新中。

二、主要技术

2.1 模块分工

软件全部模块采用python语言开发,主要分工如下:

tkinter:GUI软件界面
requests:爬虫请求
BeautifulSoup:解析响应数据
pandas:保存csv结果、数据清洗
logging:日志记录

出于版权考虑,暂不公开源码,仅向用户提供软件使用。

2.2 部分代码

部分代码实现:

发送请求并解析数据:

# 发送请求
r = requests.get(url, headers=h1, params=params)
# 解析数据
soup = BS(r.text, 'html.parser')

解析链接:

# weibo链接
wb_url = 'https:' + item.find('div', {'class': 'from'}).find('a').get('href')
wb_url_list.append(wb_url)

保存结果数据到csv文件:

# 保存数据
df = pd.DataFrame({'关键词': kw,'页码': page,'围脖id': id_list,'围脖链接': wb_url_list,'用户昵称': name_list,'用户主页链接': user_link_list,'发布时间': create_time_list,'转发数': repost_count_list,'评论数': comment_count_list,'点赞数': like_count_list,'围脖内容': text_list,}
)
# 保存csv文件
df.to_csv(self.result_file, mode='a+', index=False, header=header, encoding='utf_8_sig')
self.tk_show('结果保存成功:{}'.format(self.result_file))

软件界面底部版权:

# 版权信息
copyright = tk.Label(root, text='@马哥python说 All rights reserved.', font=('仿宋', 10), fg='grey')
copyright.place(x=290, y=625)

日志模块:

def get_logger(self):self.logger = logging.getLogger(__name__)# 日志格式formatter = '[%(asctime)s-%(filename)s][%(funcName)s-%(lineno)d]--%(message)s'# 日志级别self.logger.setLevel(logging.DEBUG)# 控制台日志sh = logging.StreamHandler()log_formatter = logging.Formatter(formatter, datefmt='%Y-%m-%d %H:%M:%S')# info日志文件名info_file_name = time.strftime("%Y-%m-%d") + '.log'# 将其保存到特定目录case_dir = r'./logs/'info_handler = TimedRotatingFileHandler(filename=case_dir + info_file_name,when='MIDNIGHT',interval=1,backupCount=7,encoding='utf-8')

三、使用介绍

3.0 填写cookie

开始采集前,先把自己的cookie值填入cookie.txt文件。

pc端cookie获取说明:

cookie获取方法

然后把复制的cookie值填写到当前文件夹的cookie.txt文件中。

3.1 软件登录

用户登录界面:需要登录。

3.2 采集wb帖子

根据自己的实际情况,在软件界面填写采集条件,点击开始按钮:

软件界面

完成采集后,在当前文件夹生成对应的csv文件,文件名以时间戳命名,方便查找。

四、演示视频

软件使用过程演示:

live.csdn.net/v/473850

五、软件首发

“爬微博搜索软件"首发公号"老男孩的平凡之路”,欢迎技术交流、深入探讨。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/78544.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

java函数式接口与方法引用

函数式接口指的是,一个interface, 只含有一个抽象方法。函数式接口可以加上FunctionalInterface注解,加上这个注解后编译器会检查接口是否满足函数式接口的规范,不满足规范则直接编译不过。 典型的内置函数式接口有Runnable‌、…

uniapp开发04-scroll-view组件的简单案例

uniapp开发04-scroll-view组件的简单案例&#xff01;废话不多说&#xff0c;我们直接上代码分析。 <!--演示scroll-view组件效果--><scroll-view class"scroll" scroll-x><view class"group"><view class"item">111&l…

硬件须知的基本问题1

目录 1. 电路表示中的电压源表示符号有哪些&#xff1f; 2&#xff0e;查找电路表示中的电流源表示符号有哪些&#xff1f; 3&#xff0e;上拉电阻和下拉电阻的作用是什么&#xff1f; 4&#xff0e;0 欧姆电阻在电路中有什么作用&#xff1f; 5&#xff0e;电容的耦合…

Vue回调函数中的this

2025/4/25 向 示例 一个例子——计数器&#xff0c;通过this来操作数据。 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.…

一键快速转换音频视频格式的实用工具

软件介绍 Sundy音视频格式转换工具&#xff0c;支持一键转换音频和视频格式&#xff0c;还可以集成至右键菜单&#xff0c;让操作更加便捷。软件支持MP4、FLV、AVI、MKV、MP3、FLAC等多种格式转换&#xff0c;用户可以根据需求自由选择。 直白版 Sundy音视频格式转换工…

【AI论文】Tina:通过LoRA的微小推理模型

摘要&#xff1a;如何在语言模型中实现成本效益高的强大推理能力&#xff1f; 在这个基本问题的驱动下&#xff0c;我们提出了Tina&#xff0c;这是一个以高成本效益实现的小型推理模型家族。 值得注意的是&#xff0c;Tina 证明了仅使用最少的资源就可以开发出大量的推理性能&…

TC3xx学习笔记-UCB BMHD使用详解(一)

文章目录 前言UCB BMHDPINDISHWCFGLSENA0-3LBISTENACHSWENABMHDIDSTADCRCBMHDCRCBMHD_NPW0-7 总结 前言 AURIX Tc系列Mcu启动过程&#xff0c;必须要了解BMHD&#xff0c;本文详细介绍BMHD的定义及使用过程 UCB BMHD UCB表示User Configuration Block,UCB是Dflash,存储的地址…

H.264/AVC标准主流开源编解码器编译说明

An artisan must first sharpen his tools if he is to do his work well. 工欲善其事,必先利其器. 前言 想研究和学习H.264/AVC视频编解码标准的入门的伙伴们,不论是学术研究还是工程应用都离不开对源码的分析,因此首要工作是对各类编解码器进行编译,本文针对主流的一些符…

Adobe Photoshop(PS)2022 版安装与下载教程

Adobe Photoshop下载安装和使用教程 Adobe Photoshop&#xff0c;简称“PS”&#xff0c;是由Adobe Systems开发和发行的图像处理软件。Photoshop主要处理以像素所构成的数字图像。使用其众多的编修与绘图工具&#xff0c;可以有效地进行图片编辑和创造工作&#xff0c…

面试新收获-大模型学习

大模型原理 Transformer 架构与自注意力机制 Transformer 是当前大多数大模型采用的核心架构&#xff0c;由编码器-解码器组成&#xff0c;摒弃了传统 RNN 的顺序处理方式。Transformer 中关键在于多头自注意力机制&#xff08;Multi-Head Self-Attention&#xff09;&#xf…

华为OD机试真题——素数之积RSA加密算法(2025A卷:100分)Java/python/JavaScript/C/C++/GO最佳实现

2025 A卷 100分 题型 本专栏内全部题目均提供Java、python、JavaScript、C、C、GO六种语言的最佳实现方式&#xff1b; 并且每种语言均涵盖详细的问题分析、解题思路、代码实现、代码详解、3个测试用例以及综合分析&#xff1b; 本文收录于专栏&#xff1a;《2025华为OD真题目录…

精益数据分析(29/126):深入剖析电子商务商业模式

精益数据分析&#xff08;29/126&#xff09;&#xff1a;深入剖析电子商务商业模式 在创业和数据分析的学习道路上&#xff0c;我们始终在探索如何更精准地把握商业规律&#xff0c;提升业务的竞争力。今天&#xff0c;我们依旧怀揣着共同进步的愿望&#xff0c;深入解读《精…

大模型奖励建模新突破!Inference-Time Scaling for Generalist Reward Modeling

传统的RM在通用领域面临准确性和灵活性挑战&#xff0c;而DeepSeek-GRM通过动态生成principle和critic&#xff0c;结合并行采样与meta RM引导的投票机制&#xff0c;实现了更高质量的奖励信号生成。论文通过Self-Principled Critique Tuning (SPCT)方法&#xff0c;显著提升了…

机器视觉的胶带模切应用

在电子制造领域&#xff0c;胶带模切工艺如同产品的“隐形裁缝”&#xff0c;从手机屏幕OCA光学胶到动力电池绝缘胶带&#xff0c;每一刀精准的切割都关乎产品性能与可靠性。传统人工对位方式难以应对微米级加工精度的严苛要求&#xff0c;而MasterAlign机器视觉系统的引入&…

Vue2+ElementUI实现无限级菜单

使用Vue2和ElementUI实现无限级菜单,通常菜单数据以树形结构存储,每个菜单包含多个子菜单 ,子菜单又可以继续包含更深层次的子菜单项。所以,需要使用递归形式,完成子项菜单的渲染。 这里,结合Element UI界面的el-menu和el-submenu组件来构建菜单结构,有子菜单时使用el-s…

如何使用WebRTC

WebRTC比较容易使用&#xff0c;只需要很少的步骤&#xff0c;有些消息在浏览器和服务器之间流动&#xff0c;有些则直接在两个浏览器之间流动&#xff0c; 1、建立WebRTC会话 a&#xff1a;建立WebRTC连接需要加入以下几个步骤&#xff1a; 获取本地媒体&#xff1a;getUse…

数据分析管理软件 Minitab 22.2.2 中文版安装包 免费下载

Minitab22.2.2 安装包下载链接: https://pan.baidu.com/s/1cWuDbvcWhYrub01C6QR81Q?pwd6666 提取码: 6666 Minitab软件是现代质量管理统计软件&#xff0c;全球六西格玛实施的共同语言。Minitab 已经在全球120多个国家&#xff0c;5000多所高校被广泛使用。

从新手到高手:小程序开发进阶技巧分享

小程序开发从入门到精通需要经历技术积累、架构优化和工程化实践等多个阶段。以下是结合真实项目经验的进阶路线与核心技术要点&#xff0c;涵盖性能优化、架构设计、跨平台开发等关键领域&#xff1a; 一、性能调优实战技巧 1. 首屏渲染加速方案 // 预请求关键数据&#xff…

Vue3后代组件多祖先通讯设计方案

在 Vue3 中&#xff0c;当需要设计一个被多个祖先组件使用的后代组件的通讯方式时&#xff0c;可以采用以下方案&#xff08;根据场景优先级排序&#xff09;&#xff1a; 方案一&#xff1a;依赖注入&#xff08;Provide/Inject&#xff09; 响应式上下文 推荐场景&#xff…

《代码之美:静态分析工具与 CI 集成详解》

《代码之美:静态分析工具与 CI 集成详解》 引言 在现代软件开发的快节奏环境中,代码质量和效率始终是开发者关注的核心。无论您是初学者,还是经验丰富的资深开发者,一个强大的工具链都能让您如虎添翼。而 Python 的静态代码分析工具,如 pylint、flake8 和 mypy,正是提升…