原创2025年小红书创作者影响力分析报告:基于10

news/2025/10/15 11:12:38/文章来源:https://www.cnblogs.com/dianshu/p/19142866

如需更多高质量数据,欢迎访问典枢数据交易平台

2025年小红书创作者影响力分析报告:基于10.5万条数据构建评估模型,识别高影响力内容特征,优化推荐算法与运营策略,涵盖用户分层、互动数据、地理位置分布,提供内容策略优化与创作者成长建议。

报告标题:小红书内容创作者影响力与内容策略优化分析

一、场景背景与价值

业务背景 :小红书作为中国领先的生活方式分享平台,拥有超过3亿用户,其中内容创作者是平台生态的核心驱动力。随着平台商业化进程的加速,如何识别高影响力创作者、优化内容推荐算法、提升用户粘性成为平台运营的关键挑战。通过分析10.5万条真实内容数据,我们可以深入理解创作者影响力形成机制,为平台运营和创作者成长提供数据支撑。

本报告目标 :通过多维度数据分析,构建创作者影响力评估模型,识别高影响力内容的关键特征,为内容策略优化提供科学依据和可操作建议。

二、数据初探与预处理

数据集获取 10万条小红书笔记链接

数据加载与概览 :本数据集包含105,000条小红书内容记录,每条记录包含25个字段,涵盖内容信息、用户特征、地理位置、情感分析、互动数据等多个维度。数据时间跨度从2025年9月1日到9月25日,覆盖全国35个省份、323个城市的内容创作者。

数据清洗过程

  1. 缺失值处理 :数据质量良好,无缺失值,所有字段完整度100%
  2. 数据类型转换 :将粉丝数、互动数据等数值字段转换为正确的数值类型
  3. 异常值处理 :发现粉丝数存在极端异常值(最大17亿),通过分层分析处理
  4. 特征工程 :创建用户影响力分层、内容质量评分、用户活跃度等衍生特征

数据质量评估

  • 平均粉丝数:16人(中位数10人,存在明显长尾分布)
  • 平均内容长度:216.3字符
  • 平均标签数:7.7个
  • 平均总互动数:1.87次

三、探索性数据分析(EDA)与核心洞察

用户影响力分层分析
通过粉丝数分层发现,平台用户呈现明显的金字塔结构:

  • 新手创作者(0-100粉丝):72,133人(68.7%)
  • 成长创作者(100-1K粉丝):13,309人(12.7%)
  • 成熟创作者(1K-10K粉丝):3,910人(3.7%)
  • 大V创作者(10K-100K粉丝):9人(0.01%)
  • 超级大V(100K+粉丝):16人(0.02%)
  • 在这里插入图片描述

在这里插入图片描述

内容互动特征分析
互动数据呈现极度不均衡分布:

  • 点赞数:平均1.23次,中位数0次,最大37,787次
  • 分享数:平均0.15次,中位数0次,最大3,167次
  • 收藏数:平均0.35次,中位数0次,最大10,521次
  • 评论数:平均0.14次,中位数0次,最大5,374次

地理位置分布洞察
内容创作呈现明显的地域集中特征:

  • 广东省:5,547条(5.3%),内容创作最活跃
  • 北京市:3,031条(2.9%),高质量内容集中
  • 江苏省:3,006条(2.9%),内容多样性丰富
  • 一线城市(北京、上海、深圳、广州)占总内容的12.1%
    在这里插入图片描述

内容主题分析
通过标签分析发现热门内容主题:

  • #美食:3,732次,最受欢迎的内容类型
  • #旅游:3,345次,生活方式分享核心
  • #旅游万粉扶持计划:2,508次,平台活动参与度高
  • #穿搭相关标签:占据前20中的8个位置

情感分析结果

  • 中性情感(0):99,421条(94.7%),内容整体积极正面
  • 正面情感(1-2):3,571条(3.4%)
  • 负面情感(-1至-6):1,008条(1.9%)

四、场景建模与实现

模型选择与原理
选择随机森林回归模型进行影响力预测,原因如下:

  1. 非线性关系处理 :能够捕捉特征间的复杂交互关系
  2. 特征重要性分析 :提供可解释的特征权重
  3. 鲁棒性强 :对异常值和噪声数据不敏感
  4. 处理能力强 :适合处理大规模数据集

特征工程策略
构建11个核心特征:

  • 用户特征:粉丝数、关注数、认证状态、影响力分层
  • 内容特征:标题长度、内容长度、标签数量、内容质量评分
  • 行为特征:用户活跃度评分、情感倾向

模型实现与评估

  • 训练集:84,009条记录(80%)
  • 测试集:21,003条记录(20%)

特征重要性分析

  1. 内容质量评分:43.63%(最重要)
  2. 标签数量:14.30%
  3. 标签数量:12.65%
  4. 标题长度:11.90%
  5. 内容长度:9.39%

在这里插入图片描述

五、完整代码实现(带详细注释)

# -*- coding: utf-8 -*-
"""
小红书内容创作者影响力分析完整代码
作者:数据分析专家
日期:2025年1月
"""import json
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from collections import Counter
import re
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.preprocessing import StandardScaler# 设置中文字体
plt.rcParams['font.sans-serif'] = ['Arial Unicode MS', 'SimHei']
plt.rcParams['axes.unicode_minus'] = Falsedef load_and_clean_data(file_path):"""加载和清洗小红书数据Args:file_path: JSON数据文件路径Returns:pd.DataFrame: 清洗后的数据框"""print("=== 开始数据加载和清洗 ===")# 读取原始数据data = []with open(file_path, 'r', encoding='utf-8') as f:for line in f:try:data.append(json.loads(line.strip()))except:continueprint(f"成功读取 {len(data)} 条原始数据")# 数据清洗和特征提取cleaned_data = []for i, record in enumerate(data):try:if 'data' not in record:continuedata_info = record['data']# 提取基础信息record_id = record.get('id', '')title = data_info.get('title', '')content = data_info.get('content', '')# 提取用户信息user_info = data_info.get('user', {})user_name = user_info.get('name', '')user_gender = user_info.get('gender', '')followers_count = user_info.get('followers_count', 0)friends_count = user_info.get('friends_count', 0)verified = user_info.get('verified', 0)# 提取地理位置信息analysis = data_info.get('analysis', {})find_address = analysis.get('find_address', {})province = find_address.get('province', [])city = find_address.get('city', [])# 提取情感分析sentiment = analysis.get('sentiment', 0)# 提取标签信息tags = analysis.get('tag', [])tag_count = len(tags)# 提取时间信息ctime = data_info.get('ctime', 0)utime = data_info.get('utime', 0)# 提取互动数据like_count = data_info.get('like_count', 0)share_count = data_info.get('share_count', 0)collection_count = data_info.get('collection_count', 0)reply_count = data_info.get('reply_count', 0)visit_count = data_info.get('visit_count', 0)# 计算内容长度title_length = len(title) if title else 0content_length = len(content) if content else 0# 提取标签文本hashtags = re.findall(r'#([^#\\s]+)', content)hashtag_count = len(hashtags)# 计算影响力指标total_interaction = like_count + share_count + collection_count + reply_countcleaned_record = {'id': record_id,'title': title,'content': content,'user_name': user_name,'user_gender': user_gender,'followers_count': followers_count,'friends_count': friends_count,'verified': verified,'province': province[0] if province else '','city': city[0] if city else '','sentiment': sentiment,'tag_count': tag_count,'ctime': ctime,'utime': utime,'like_count': like_count,'share_count': share_count,'collection_count': collection_count,'reply_count': reply_count,'visit_count': visit_count,'title_length': title_length,'content_length': content_length,'hashtag_count': hashtag_count,'total_interaction': total_interaction,'hashtags': hashtags}cleaned_data.append(cleaned_record)except Exception as e:if i < 10:  # 只打印前10个错误print(f'处理第{i}条记录时出错: {e}')continueprint(f"成功处理 {len(cleaned_data)} 条数据")# 转换为DataFramedf = pd.DataFrame(cleaned_data)# 转换数值列numeric_cols = ['followers_count', 'friends_count', 'verified', 'like_count', 'share_count', 'collection_count', 'reply_count', 'visit_count','title_length', 'content_length', 'hashtag_count', 'total_interaction', 'sentiment', 'tag_count']for col in numeric_cols:if col in df.columns:df[col] = pd.to_numeric(df[col], errors='coerce')return dfdef create_visualizations(df):"""创建数据可视化图表Args:df: 清洗后的数据框"""print("=== 创建可视化图表 ===")# 创建图表fig, axes = plt.subplots(2, 3, figsize=(18, 12))fig.suptitle('小红书内容创作者影响力分析 - 数据可视化', fontsize=16, fontweight='bold')# 1. 用户粉丝数分布(对数尺度)ax1 = axes[0, 0]followers_clean = df[df['followers_count'] < 1000000]['followers_count']ax1.hist(np.log10(followers_clean + 1), bins=50, alpha=0.7, color='skyblue', edgecolor='black')ax1.set_xlabel('粉丝数(对数尺度)')ax1.set_ylabel('频次')ax1.set_title('用户粉丝数分布')ax1.set_xticks([0, 1, 2, 3, 4, 5, 6])ax1.set_xticklabels(['1', '10', '100', '1K', '10K', '100K', '1M'])# 2. 内容互动数据分布ax2 = axes[0, 1]interaction_data = [df['like_count'], df['share_count'], df['collection_count'], df['reply_count']]interaction_labels = ['点赞', '分享', '收藏', '评论']ax2.boxplot(interaction_data, labels=interaction_labels)ax2.set_ylabel('互动数量')ax2.set_title('内容互动数据分布')ax2.set_yscale('log')# 3. 用户分层分布ax3 = axes[0, 2]df['follower_tier'] = pd.cut(df['followers_count'], bins=[0, 100, 1000, 10000, 100000, float('inf')],labels=['新手(0-100)', '成长(100-1K)', '成熟(1K-10K)', '大V(10K-100K)', '超级大V(100K+)'])tier_counts = df['follower_tier'].value_counts()colors = ['#ff9999', '#66b3ff', '#99ff99', '#ffcc99', '#ff99cc']wedges, texts, autotexts = ax3.pie(tier_counts.values, labels=tier_counts.index, autopct='%1.1f%%', colors=colors, startangle=90)ax3.set_title('用户影响力分层分布')# 4. 地理位置分布(TOP10省份)ax4 = axes[1, 0]province_counts = df['province'].value_counts().head(10)bars = ax4.barh(range(len(province_counts)), province_counts.values, color='lightcoral')ax4.set_yticks(range(len(province_counts)))ax4.set_yticklabels(province_counts.index)ax4.set_xlabel('内容数量')ax4.set_title('省份内容分布TOP10')ax4.invert_yaxis()# 5. 内容长度与互动关系ax5 = axes[1, 1]sample_df = df.sample(n=min(10000, len(df)))ax5.scatter(sample_df['content_length'], sample_df['total_interaction'], alpha=0.5, s=20, color='purple')ax5.set_xlabel('内容长度(字符)')ax5.set_ylabel('总互动数')ax5.set_title('内容长度与互动关系')ax5.set_yscale('log')# 6. 发布时间分布ax6 = axes[1, 2]df['create_time'] = pd.to_datetime(df['ctime'], unit='s')df['hour'] = df['create_time'].dt.hourhour_distribution = df['hour'].value_counts().sort_index()ax6.plot(hour_distribution.index, hour_distribution.values, marker='o', linewidth=2, markersize=6)ax6.set_xlabel('发布时间(小时)')ax6.set_ylabel('内容数量')ax6.set_title('内容发布时间分布')ax6.set_xticks(range(0, 24, 2))ax6.grid(True, alpha=0.3)plt.tight_layout()plt.savefig('xiaohongshu_analysis_charts.png', dpi=300, bbox_inches='tight')plt.show()print("图表已保存为 xiaohongshu_analysis_charts.png")def build_influence_model(df):"""构建影响力预测模型Args:df: 清洗后的数据框Returns:tuple: (模型, 特征重要性, 评估指标)"""print("=== 构建影响力预测模型 ===")# 特征工程df['follower_tier'] = pd.cut(df['followers_count'], bins=[0, 100, 1000, 10000, 100000, float('inf')],labels=[0, 1, 2, 3, 4])# 内容质量指标df['content_quality_score'] = (df['title_length'] * 0.3 + df['content_length'] * 0.4 + df['hashtag_count'] * 0.3)# 用户活跃度指标df['user_activity_score'] = (df['friends_count'] * 0.3 + df['followers_count'] * 0.7)# 选择特征feature_cols = ['followers_count', 'friends_count', 'verified', 'follower_tier','title_length', 'content_length', 'hashtag_count', 'tag_count','content_quality_score', 'user_activity_score', 'sentiment']target_col = 'total_interaction'# 准备数据X = df[feature_cols].fillna(0)y = df[target_col].fillna(0)# 数据分割X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)# 训练随机森林模型rf_model = RandomForestRegressor(n_estimators=100, random_state=42, n_jobs=-1)rf_model.fit(X_train, y_train)rf_pred = rf_model.predict(X_test)rf_r2 = r2_score(y_test, rf_pred)rf_rmse = np.sqrt(mean_squared_error(y_test, rf_pred))# 特征重要性feature_importance = pd.DataFrame({'feature': feature_cols,'importance': rf_model.feature_importances_}).sort_values('importance', ascending=False)print(f"随机森林模型 - R²: {rf_r2:.4f}, RMSE: {rf_rmse:.4f}")return rf_model, feature_importance, (rf_r2, rf_rmse)def main():"""主函数:执行完整的数据分析流程"""print("开始小红书内容创作者影响力分析")# 1. 数据加载和清洗df = load_and_clean_data('xiaohongshu.json')# 2. 保存清洗后的数据df.to_csv('xiaohongshu_cleaned.csv', index=False, encoding='utf-8')print("清洗后的数据已保存到 xiaohongshu_cleaned.csv")# 3. 创建可视化create_visualizations(df)# 4. 构建模型model, feature_importance, metrics = build_influence_model(df)# 5. 输出结果print("\\n=== 分析完成 ===")print(f"数据量: {len(df)} 条")print(f"模型R²: {metrics[0]:.4f}")print(f"模型RMSE: {metrics[1]:.4f}")print("\\n特征重要性TOP5:")for idx, row in feature_importance.head().iterrows():print(f"{row['feature']}: {row['importance']:.4f}")if __name__ == "__main__":main()

六、总结与业务建议

分析总结
通过对10.5万条小红书内容的深度分析,我们发现了几个关键洞察:1)平台用户呈现明显的金字塔结构,68.7%为新手创作者;2)内容互动呈现极度不均衡分布,大部分内容互动数为0;3)内容质量评分是影响互动的最重要因素(43.63%);4)美食和旅游是平台最受欢迎的内容类型;5)一线城市创作者贡献了12.1%的内容。

业务建议

  1. 平台运营优化 :建立分层激励机制,为不同层级创作者提供差异化支持;优化推荐算法,重点关注内容质量评分;加强地域内容平衡,鼓励二三线城市创作者参与。

  2. 创作者成长策略 :重点提升内容质量,包括标题吸引力、内容深度和标签使用;建议创作者关注美食、旅游等热门领域;合理使用标签提升内容曝光度。

  3. 商业化建议 :品牌方应重点关注内容质量评分高的创作者;优先选择一线城市和热门省份的创作者进行合作;关注情感倾向积极的内容创作者。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/937352.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

原创2020年纽约市交通事故数据集深度解析:基于74,881条记录的智能交通管理与自动驾驶算法训练实战指南,覆盖超速、分心驾驶、天气因素等多维度事故原因分析,助力城市安全治理从被动应对转向主动预防

如需更多高质量数据,欢迎访问典枢数据交易平台 2020年纽约市交通事故数据集深度解析:基于74,881条记录的智能交通管理与自动驾驶算法训练实战指南,覆盖超速、分心驾驶、天气因素等多维度事故原因分析,助力城市安全…

原创2000万道+K12教育题库数据集:覆盖小学到高中全学段多学科智能教育训练数据,助力AI教育应用与个性化学习系统开发

如需更多高质量数据,欢迎访问典枢数据交易平台 2000万道+K12教育题库数据集:覆盖小学到高中全学段多学科智能教育训练数据,助力AI教育应用与个性化学习系统开发 引言与背景 在人工智能技术飞速发展的今天,教育领域…

原创1747张YOLO标注奶牛水牛识别数据集:精准标注跨场景动物检测模型训练专用计算机视觉数据集,助力智慧农业与畜牧业AI算法研发

如需更多高质量数据,欢迎访问典枢数据交易平台 1747张YOLO标注奶牛水牛识别数据集:精准标注跨场景动物检测模型训练专用计算机视觉数据集,助力智慧农业与畜牧业AI算法研发 引言与背景 在当今数字化农业和智慧畜牧业…

原创1

如需更多高质量数据,欢迎访问典枢数据交易平台 1.95GB 皇家马德里与利物浦 2018 欧冠决赛推文数据集:多维度 JSON 格式社交媒体数据,适用于体育舆论分析、情感计算与传播研究的高质量标注资源 引言与背景 社交媒体数…

AgentFounder浅析——Agent的演化历程与目标

理论上(浅显)分析Agent与传统llm、RAG的不同以及演进历程,根据Agent的目标解读AgentFounder论文的训练策略和数据集构建 Agent的目标以及对应的技术方案 Agent的推理目标 形式化的表达: 咱们首先来分析一下最开始大…

26Java基础之特殊文本文件、日志技术

特殊文件 为什么要用这些特殊文件?存储多个用户的:用户名、密码Rroperties是一个Map集合(键值对集合),但是我们一般不会当集合使用。 核心作用:Properties是用来代表属性文件的,通过Properties可以读写属性文件里…

Aniyomi扩展开发指南与Google Drive集成方案

本文详细介绍了Aniyomi扩展的开发流程和Google Drive集成方案,包含完整的代码结构、安装指南和使用说明,帮助开发者快速构建功能丰富的动漫扩展应用。Aniyomi扩展开发指南 项目概述 Aniyomi是一个基于Android 6.0+的…

2025 最新开锁公司口碑排行榜权威甄选:智能锁 / 汽车锁 / 保险柜开锁服务最新推荐,安全高效品牌指南

锁具服务作为居家与企业安防的关键一环,其专业性与安全性直接关乎财产安全。当前行业却深陷多重困境:无证 “游击队” 服务商充斥市场,无备案资质、缺专业技术的问题给用户埋下安全隐患;智能锁的快速普及让传统服务…

完整教程:ESD保护设计指南 - littelfuse

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

【Python精讲 16】实战项目演练(二):用Flask/FastAPI发布你的第一个Web API - 详解

【Python精讲 16】实战项目演练(二):用Flask/FastAPI发布你的第一个Web API - 详解pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; fo…

基于遗传算法的33节点微电网网络重构优化

一、系统建模与参数配置 1. 33节点配电网拓扑 +-------------------+| 33节点主网架 || (IEEE标准结构) |+--------+----------+|v +-------------------+ +-------------------+ | 分布式电源 …

PMTU机制原理和缺陷

PMTU 机制原理 PMTU(Path Maximum Transmission Unit,路径最大传输单元)发现机制 是一种用于动态探测从源主机到目的主机之间整条网络路径上最小 MTU 值的技术,目的是避免 IP 数据包在传输过程中被分片。 ✅ 核心目…

2025 年摇臂钻床厂商最新推荐排行榜:含 3050/3080/3040/3063/50 型号厂家产能与供应优势详解

当前制造业加速向智能化、高效化转型,摇臂钻床作为机械加工核心设备,其品质与供应效率直接决定下游企业生产进度与产品精度。但市场中供应商数量繁杂,部分厂商存在产能不足导致交货延迟、技术落后无法满足定制需求、…

Linux进程 --- 2 - 实践

Linux进程 --- 2 - 实践pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", &qu…

20232402 2025-2026-1 《网络与系统攻防技术》实验一实验报告

20232402 2025-2026-1 《网络与系统攻防技术》实验一实验报告 1.实验内容 本周学习内容为缓冲区溢出漏洞简介和缓冲区溢出基础知识。 1.1 缓冲区溢出漏洞简介缓冲区是连续的一段存储空间。 缓冲区溢出是指向特定缓冲区…

2025 年最新推荐排水沟厂家排行榜:聚焦树脂 / 线性 / 树脂混凝土 / 成品 /u 型排水沟优质厂家推荐

在市政工程、电厂建设、道路施工等基础设施项目中,排水沟的质量与性能直接关乎工程稳定性和使用寿命。当前市场上排水沟产品质量参差不齐,部分产品存在强度不足、易腐蚀、安装后异响移位等问题,增加后期维护成本且埋…

2025 年最新推荐排水沟厂家排行榜:聚焦树脂 / 线性 / 树脂混凝土 / 成品 /u 型排水沟优质厂家推荐

在市政工程、电厂建设、道路施工等基础设施项目中,排水沟的质量与性能直接关乎工程稳定性和使用寿命。当前市场上排水沟产品质量参差不齐,部分产品存在强度不足、易腐蚀、安装后异响移位等问题,增加后期维护成本且埋…

2025 年盖板源头厂家最新推荐榜单:涵盖电力 / 隧道 / 扣槽 / 室内外电缆沟 / 复合及树脂盖板,深度解析源头厂家原材料采购与成本控制

当前盖板行业应用场景持续拓展,从市政工程到电厂、高速、隧道等领域,对盖板的质量、性能及成本要求愈发严苛。但市场上部分厂家存在原材料把控不严、成本控制失衡、定制服务滞后等问题,导致采购方难以精准筛选优质合…

AC6966B SD配置F组可以吗?ok

虽然《Jieli-AC6966B-V1.0.pdf》只标明了PB7可以做SD CLK,但实测是可以读卡的。 如果读不到ID请检查芯片是否贴好。

2025 年最新紫外线灯厂家推荐排行榜:优质厂家权威榜单发布,含杀菌灯消毒灯选购指南

当前,紫外线灯在空气净化、水处理、食品医药等领域的应用愈发广泛,市场需求持续增长,但行业乱象也随之凸显。众多品牌涌入市场,产品质量差异悬殊,部分产品存在使用寿命短、光衰快、紫外线输出不稳定等问题,严重影…