CSDN统计个人创作总字数

前言

不是很懂爬虫,所以就叫deepseek写了一个


用起来很简单,但是有一个小问题,就是统计的是总字符数。代码片会被统计进去,Markdown语法也会被统计进去。


不过我没有太多需求,能大概统计一下满足以下小小的好奇心和成就感就行。如果有额外需求可以叫deepseek再改

代码

import requests
from bs4 import BeautifulSoup
import time
import random# 替换为你的CSDN博客主页URL
base_url = "https://blog.csdn.net/用户id/article/list/"# 设置请求头,模拟浏览器访问
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"
}# 获取博客文章列表
def get_article_links(base_url, headers):article_links = []page = 1while True:url = f"{base_url}{page}"response = requests.get(url, headers=headers)soup = BeautifulSoup(response.text, 'html.parser')# 查找所有文章的链接articles = soup.find_all('div', class_='article-item-box')if not articles:break  # 如果没有文章了,退出循环for article in articles:link = article.find('h4').find('a')['href']article_links.append(link)page += 1time.sleep(random.uniform(1, 3))  # 随机延迟,避免触发反爬虫return article_links# 统计文章字数
def count_words(article_links, headers):total_words = 0cnt = 0for link in article_links:try:# 随机延迟,避免触发反爬虫time.sleep(random.uniform(1, 3))# 获取文章内容article_response = requests.get(link, headers=headers)article_soup = BeautifulSoup(article_response.text, 'html.parser')# 查找文章正文部分(根据CSDN的HTML结构)content = article_soup.find('div', class_='markdown_views') or article_soup.find('article', class_='baidu_pl')if content:text = content.get_text(strip=True)  # 提取纯文本word_count = len(text)  # 统计字数(按字符数计算)total_words += word_countcnt += 1print(f"文章链接: {link}, 字数: {word_count} , 序号 : {cnt}")else:print(f"文章链接: {link}, 未找到正文内容")except Exception as e:print(f"文章链接: {link}, 抓取失败: {e}")return total_words# 获取所有文章的链接
article_links = get_article_links(base_url, headers)# 统计总字数
total_words = count_words(article_links, headers)
print(f"总字数: {total_words}")

用法

只需要把base_url = "https://blog.csdn.net/用户id/article/list/"这里的用户id替换成你的用户id就可以了


用户id在个人资料里查看

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/72016.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

React.js 基础与进阶教程

React.js 基础与进阶教程 React.js 是由 Facebook 开发的流行前端 JavaScript 库,专为构建用户界面(UI)设计,尤其适用于单页面应用(SPA)。它采用组件化开发模式,使 UI 结构更加清晰、可维护性更…

msf(Metasploit)中Session与Channel的区别与关系解析

在 Metasploit Framework(MSF)中,Session 和 Channel 都是与目标主机的交互方式,但它们的作用和概念有所不同。本文将解析这两个术语的区别。 一、Session(会话) Session 是指通过 Metasploit 成功利用目标…

设计模式-结构型模式-装饰器模式

概述 装饰器模式 : Decorator Pattern : 是一种结构型设计模式. 作用 : 允许你动态地给对象添加功能或职责,而无需修改其原始类的代码,非常的符合 开闭原则。 实现思路 :通过创建一个包装对象(即装饰器),来…

Qt/C++音视频开发82-系统音量值获取和设置/音量大小/静音

一、前言 在音视频开发中,音量的控制分两块,一个是控制播放器本身的音量,绝大部分场景都是需要控制这个,这个不会影响系统音量的设置。还有一种场景是需要控制系统的音量,因为播放器本身的音量是在系统音量的基础上控…

基于深度学习的医学CT图像肺结节智能检测与语音提示系统【python源码+Pyqt5界面+数据集+训练代码】

《------往期经典推荐------》 一、AI应用软件开发实战专栏【链接】 项目名称项目名称1.【人脸识别与管理系统开发】2.【车牌识别与自动收费管理系统开发】3.【手势识别系统开发】4.【人脸面部活体检测系统开发】5.【图片风格快速迁移软件开发】6.【人脸表表情识别系统】7.【…

前端小食堂 | Day14 - Vue 3 の传送门与悬念

&#x1f300; 今日秘技&#xff1a;Teleport 与 Suspense の时空魔法 1. Teleport 任意门 <template> <!-- &#x1f6aa; 将组件传送到 body 末尾 --> <Teleport to"body"> <div class"modal"> <h2>重要通知&#x…

emacs使用mongosh的方便工具发布

github项目地址: GitHub - csfreebird/emacs_mongosh: 在emacs中使用mongosh快速登录mongodb数据库 * 用途 在emacs中使用mongosh快速登录mongodb数据库&#xff0c; 操作方法: M-x mongosh, 输入数据库名称&#xff0c;然后就可以自动登录&#xff0c;前提是你已经配置好了…

Linux:Ubuntu server 24.02 上搭建 ollama + dify

一、安装Ubuntu 具体的安装过程可以参见此链接&#xff1a;链接&#xff1a;Ubuntu Server 20.04详细安装教程&#xff0c;这里主要记录一下过程中遇到的问题。 安装时subnet如何填写 在Ubuntu中subnet填写255.255.255.0是错误的&#xff0c;其格式为 xx.xx.xx.xx/yy &#…

unordered_set 的常用函数

在 C 的标准库中&#xff0c;std::unordered_set 是基于哈希表实现的哈希集合。下面介绍这种语言里哈希集合的常用函数。 C std::unordered_set 1. 元素操作 insert 功能&#xff1a;向哈希集合中插入元素。如果元素已经存在&#xff0c;则不会重复插入。示例代码&#xff1a…

starrocks批量启停脚本

#!/bin/bash # 定义 StarRocks 安装目录 STARROCKS_HOME"/path/to/starrocks" # 定义 FE 和 BE 节点列表 FE_NODES("fe_node1_ip" "fe_node2_ip" "fe_node3_ip") BE_NODES("be_node1_ip" "be_node2_ip" "be_…

python 提取视频中的音频

在Python中提取视频中的音频&#xff0c;你可以使用moviepy库&#xff0c;这是一个非常强大且易于使用的库&#xff0c;专门用于视频编辑。以下是如何使用moviepy来提取视频中的音频的步骤&#xff1a; 安装moviepy 首先&#xff0c;你需要安装moviepy。你可以通过pip安装它&a…

大语言模型打卡学习DAY1

学习目标&#xff1a; 语言模型的发展历程 大模型的技术基础 学习内容&#xff1a; 1. 语言模型的发展历程 语言模型通常是指能够建模自然语言文本生成概率的模型&#xff0c;从语言建模到任务求解&#xff0c;这是科学思维的一次重要跃升。2. 大语言模型技术基础 定义&#…

boarding_passes(登机牌)表的作用

boarding_passes&#xff08;登机牌&#xff09;表的作用 boarding_passes 这张表的主要作用是记录旅客的登机信息&#xff0c;包括&#xff1a; 票号 (ticket_no) - 关联到 tickets 表&#xff0c;表示这张票属于哪个旅客。航班 ID (flight_id) - 关联到 flights 表&#xf…

Go语言为什么运行比Java快

文章目录 前言一、核心区别二、Go Vs Java1.Go 的启动比 Java 快&#xff1f;2.选 Go Or Java&#xff1f; 总结 前言 Go 和 Java 是两种广泛应用的编程语言&#xff0c;它们在语言特性、性能、生态、应用场景等方面存在显著区别。以下是它们的核心区别&#xff0c;以及在实际…

java生成一个24位的字符串,要求这个字符串由大写的英文字母和数字组成,长度固定位24位

import java.security.SecureRandom;public class RandomStringGenerator {// 定义允许的字符集&#xff08;大写字母和数字&#xff09;private static final String ALLOWED_CHARACTERS "ABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789";private static final SecureRando…

基于python的升级队列加速决策

a-f大等级是3级 a-c建筑每升1级分别需要8天 d-f建筑每升1级分别需要10天 目前以下建筑队列正在从0级升至1级 建筑A升级需要7天05&#xff1a;16&#xff1a;20 建筑b升级需要06&#xff1a;06&#xff1a;54 建筑c升级需要00&#xff1a;37&#xff1a;00 建筑d升级需要…

【经验】Ubuntu|VMware 新建虚拟机后打开 SSH 服务、在主机上安装vscode并连接、配置 git 的 ssh

常常有人问VMware-Tools装了也复制粘贴不了怎么办&#xff0c;这个东西影响因素太多了&#xff0c;我总是建议直接用SSH连接虚拟机。但是之前一直都没有出教程&#xff0c;现在出一个简单的教程。 文章目录 在 Ubuntu 虚拟机&#xff08;VMware&#xff09;中开启 SSH 服务、配…

C++多线程编程 3.互斥量、互斥锁

目录 1. 线程安全与互斥锁&#xff08;std::mutex&#xff09; 2. 互斥量死锁 3. std::lock_guard 4. std::unique_lock (1)示例 (2)详细知识点 5. std::this_thread (1)sleep_for (2)sleep_until (3)yield (4)get_id 直接通过示例讲解&#xff1a; 1. 线程安全与互…

【redis】hash基本命令和内部编码

文章目录 表示形式命令HSET 和 HGET HEXISTSHDELHKEYSHVALSHGETALLHMGETHLENHSETNXHINCRBYHINCRBYFLOAT命令小结内部编码 表示形式 Redis 自身已经是键值对结构了 Redis 自身的键值对就是通过哈希的方式来组织的 把 key 这一层组织完成之后&#xff0c;到了 value 这一层&…

行为模式---策略模式

概念 策略模式是一种行为设计摸是&#xff0c;它的核心思想是将一些列的算法封装成独立的对象&#xff0c;并使它们可以相互替换&#xff0c;通过上下文进行调用。 策略模式通过算法抽象为独立的策略类&#xff0c;客户端可以根据自身需求选择不同的策略类来完成任务、这种方…