中国上市公司股吧数据集(含帖子正文、回帖互动、用户画像与粉丝关系,共6万+结构化样本与统一ID可关联),支持金融舆情分析、推荐排序、社交网络挖掘与中文大模型训练的高质

本数据集系统整理了与中国上市公司相关的股吧平台结构化互动数据,围绕“内容—互动—用户—关系”四个维度提供统一、规整且可关联的字段与时间戳信息,能够较为完整地反映投资者在社区中的发帖与回帖行为、用户活跃特征与社交关注关系。借助该数据集,研究者与从业者可在文本理解、行为分析、社群挖掘与推荐排序等典型任务上快速启动;在科研教学与产业落地中,凭借标准化字段和较好的数据完整性,显著缩短从数据清洗到原型验证的周期,并提升模型在真实业务场景中的泛化能力与可解释性。

数据基本信息

  • 数据文件与规模
    • 中国上市公司股吧帖子详情表.xlsx:6088 行 × 16 列(帖子文本、时间、互动计数、作者信息)
    • 中国上市公司股吧回帖详情表.xlsx:30000 行 × 9 列(回帖文本、时间、互动计数、引用关系)
    • 中国上市公司股吧用户详情表.xlsx:30000 行 × 14 列(用户基础属性、活跃度与创作/互动指标)
    • 中国上市公司股吧用户粉丝表.xlsx:30000 行 × 3 列(用户关注关系与关注时间)
  • 数据类型与格式
    • 统一为 .xlsx;字段表头清晰,文本、时间戳、计数与标识类字段可直接加载分析。
  • 字段与可用性说明
    • 帖子/回帖均含正文与时间字段,可直接用于 NLP 任务与时序建模;阅读量、点赞、评论等计数便于构建互动与传播特征。
    • 用户详情含吧龄、访问次数、主帖/评论数、自选股数量等活跃与兴趣信号;粉丝关系表可构建有向关注图谱用于网络分析与影响力建模。
  • 缺失与质量特征
    • 发帖 IP、回帖 IP 与图片链接在样本中大多为空;“用户认证”字段稀疏(非空 29 条)。其余核心字段完整性较好、计数类字段完备,适合直接建模。

数据优势

优势点说明
结构完整覆盖帖子、回帖、用户与粉丝关系四大维度,形成内容与社交双闭环。
直接可用表头规范、类型明确,文本与时间戳无需复杂清洗即可进入建模流程。
任务丰富同时支持 NLP、时序预测、推荐/排序、社交网络挖掘与因子工程。
可扩展性强ID 体系清晰,便于跨表关联、子集抽样与后续增量扩容。
业务贴合度高字段紧贴社区互动与金融舆情,指标解释性强、落地路径明确。
参考数据中国上市公司股吧多维互动数据集

字段字典(按文件)

中国上市公司股吧帖子详情表.xlsx(16 列)
字段名含义/说明数据类型备注(缺失情况)
帖子ID主帖唯一标识int64完整
股吧代码对应股吧/股票代码string完整
股吧名称对应股吧名称string完整
帖子标题主帖标题string完整
帖子简介标题外的简短摘要string少量缺失(5845/6088 非空)
帖子内容主帖正文(长文本)string少量缺失(5835/6088 非空)
数据来源采集来源标记string完整(如“股吧网页版”)
帖子发布时间主帖发布时间datetime完整
最后发帖时间主帖最后更新时间datetime完整
帖子发表者ID作者用户IDint64完整
帖子发表者昵称作者昵称string完整
发帖IP作者发帖IPstring全空(0/6088 非空)
阅读量浏览次数int64完整
分享数被分享次数int64完整
点赞数点赞次数int64完整
评论数回帖/评论数量int64完整
中国上市公司股吧回帖详情表.xlsx(9 列)
字段名含义/说明数据类型备注(缺失情况)
帖子ID所属主帖IDint64完整
回帖ID回帖唯一标识int64完整
回帖用户ID回帖者用户IDint64基本完整(29998/30000 非空)
回帖内容回帖正文(短文本为主)string少量缺失(29988/30000 非空)
回帖时间回帖时间戳datetime/Excel序列完整(可由序列值解析为时间)
回帖点赞数回帖获得的点赞数int64完整
回帖图片链接回帖附带图片URLstring全空(0/30000 非空)
回帖IP地址回帖IPstring全空(0/30000 非空)
被回帖id引用/被回复的回帖IDint64极少非空(4/30000 非空)
中国上市公司股吧用户详情表.xlsx(14 列)
字段名含义/说明数据类型备注(缺失情况)
用户ID用户唯一标识int64完整
用户昵称展示昵称string多数非空(29922/30000 非空)
用户名账户名/登录名string部分缺失(28738/30000 非空)
吧龄账号在吧内的年龄string完整(如“1天”等)
关注人数该用户关注他人的数量int64完整
粉丝数关注该用户的人数int64完整
总访问次数累计访问频次int64完整
用户简介个性签名/简介string少量缺失(29468/30000 非空)
用户认证认证标识/文案string极度稀疏(29/30000 非空)
主帖数该用户发布的主帖数量int64完整
评论数该用户发布的评论数量int64完整
自选股数量该用户自选股数量int64完整
用户注册时间账户注册时间datetime完整(存在默认“0001-01-01”占位)
用户影响力平台影响力评分int64完整
中国上市公司股吧用户粉丝表.xlsx(3 列)
字段名含义/说明数据类型备注(缺失情况)
用户ID被关注者用户IDint64完整
粉丝用户ID关注者用户IDstring/int64完整(部分以字符串形式存储)
关注时间关注关系建立时间datetime完整

数据样例(多样化节选,18 条)

{"file":"中国上市公司股吧帖子详情表.xlsx","rows":[{"帖子ID":1081967419,"股吧代码":"400065","股吧名称":"博元3吧","帖子标题":"博元1:珠海市博元投资股份有限公司对问询函的回复(公司回复)","帖子简介":"公告日期:2020-06-03……[点击查看原文]...","帖子内容":"公告日期:2020-06-03……[点击查看PDF原文]……敬请投资者注意风险。","数据来源":"股吧网页版","帖子发布时间":"2020-06-03 00:00:00","最后发帖时间":"2020-06-03 00:00:00","帖子发表者ID":4620525223788610,"帖子发表者昵称":"博元3资讯","发帖IP":null,"阅读量":94,"分享数":0,"点赞数":0,"评论数":0},{"帖子ID":1081968843,"股吧代码":"430249","股吧名称":"慧峰仁和吧","帖子标题":"慧峰仁和:430249慧峰仁和-年报问询函回复(公司回复)","帖子简介":"公告日期:2020-08-14……","帖子内容":"……你公司主营业务为工程设计咨询……提示:本网不保证其真实性……","数据来源":"股吧网页版","帖子发布时间":"2020-08-14 00:00:00","最后发帖时间":"2020-08-14 00:00:00","帖子发表者ID":7354013905689478,"帖子发表者昵称":"慧峰仁和资讯","发帖IP":null,"阅读量":116,"分享数":0,"点赞数":0,"评论数":0},{"帖子ID":1081973611,"股吧代码":"834343","股吧名称":"华凯保险吧","帖子标题":"华凯保险:834343年报问询函【2020】第493号(公司回复)","帖子简介":"公告日期:2020-09-14……","帖子内容":"……对华凯保险销售股份有限公司的年报问询函……","数据来源":"股吧网页版","帖子发布时间":"2020-09-14 00:00:00","最后发帖时间":"2020-09-14 00:00:00","帖子发表者ID":2071014479236696,"帖子发表者昵称":"华凯保险资讯","发帖IP":null,"阅读量":104,"分享数":0,"点赞数":0,"评论数":0},{"帖子ID":1081976526,"股吧代码":"833588","股吧名称":"九州方园吧","帖子标题":"九州方园:833588九州方园-年报问询函回复(公司回复)","帖子简介":"公告日期:2020-07-10……","帖子内容":"……请你公司:(1)结合行业发展情况……","数据来源":"股吧网页版","帖子发布时间":"2020-07-10 00:00:00","最后发帖时间":"2020-07-10 00:00:00","帖子发表者ID":4203014428264870,"帖子发表者昵称":"九州方园资讯","发帖IP":null,"阅读量":113,"分享数":0,"点赞数":0,"评论数":0},{"帖子ID":1081979604,"股吧代码":"834045","股吧名称":"清众科技吧","帖子标题":"清众科技:834045清众科技-年报问询函回复(公司回复)","帖子简介":"公告日期:2020-08-14……","帖子内容":"……城市公共安全与智慧城市建设运营……","数据来源":"股吧网页版","帖子发布时间":"2020-08-14 00:00:00","最后发帖时间":"2020-08-14 00:00:00","帖子发表者ID":1311014461958848,"帖子发表者昵称":"清众科技资讯","发帖IP":null,"阅读量":100,"分享数":0,"点赞数":0,"评论数":0}]}
{"file":"中国上市公司股吧回帖详情表.xlsx","rows":[{"帖子ID":29468493,"回帖ID":3170995539,"回帖用户ID":2397112636635232,"回帖内容":"支持楼主!","回帖时间":40466.4912615741,"回帖点赞数":0,"回帖图片链接":null,"回帖IP地址":null,"被回帖id":null},{"帖子ID":29496287,"回帖ID":3170995583,"回帖用户ID":9213112407556938,"回帖内容":"不过这股目前还不是热点,没有耐心的可以先玩热点","回帖时间":40466.4916666667,"回帖点赞数":0,"回帖图片链接":null,"回帖IP地址":null,"被回帖id":null},{"帖子ID":29000476,"回帖ID":3170995588,"回帖用户ID":4680112854097378,"回帖内容":"终于出了,太刺激了,赚了50%,从来没有这么痛快","回帖时间":40466.4916898148,"回帖点赞数":0,"回帖图片链接":null,"回帖IP地址":null,"被回帖id":null},{"帖子ID":29299844,"回帖ID":3170995606,"回帖用户ID":2397112636635232,"回帖内容":"支持楼主!","回帖时间":40466.4918402778,"回帖点赞数":0,"回帖图片链接":null,"回帖IP地址":null,"被回帖id":null},{"帖子ID":29459090,"回帖ID":3170995676,"回帖用户ID":1045112793810944,"回帖内容":"[原帖]……我确信有色和煤炭是这波行情的龙头……","回帖时间":40466.4925231481,"回帖点赞数":0,"回帖图片链接":null,"回帖IP地址":null,"被回帖id":null}]}
{"file":"中国上市公司股吧用户详情表.xlsx","rows":[{"用户ID":199771,"用户昵称":null,"用户名":null,"吧龄":"1天","关注人数":0,"粉丝数":0,"总访问次数":4,"用户简介":null,"用户认证":null,"主帖数":0,"评论数":2,"自选股数量":0,"用户注册时间":"0001-01-01 00:00:00","用户影响力":0},{"用户ID":11111111,"用户昵称":null,"用户名":null,"吧龄":"1天","关注人数":0,"粉丝数":0,"总访问次数":1,"用户简介":null,"用户认证":null,"主帖数":0,"评论数":2,"自选股数量":0,"用户注册时间":"0001-01-01 00:00:00","用户影响力":0},{"用户ID":9765200000000,"用户昵称":null,"用户名":null,"吧龄":"1天","关注人数":0,"粉丝数":0,"总访问次数":80,"用户简介":null,"用户认证":null,"主帖数":0,"评论数":3,"自选股数量":1,"用户注册时间":"0001-01-01 00:00:00","用户影响力":0},{"用户ID":11001100110011,"用户昵称":null,"用户名":null,"吧龄":"1天","关注人数":0,"粉丝数":0,"总访问次数":72,"用户简介":null,"用户认证":null,"主帖数":0,"评论数":5,"自选股数量":1,"用户注册时间":"0001-01-01 00:00:00","用户影响力":0}]}
{"file":"中国上市公司股吧用户粉丝表.xlsx","rows":[{"用户ID":1000004765568124,"粉丝用户ID":"3425055407815706","关注时间":"2020-03-10 20:10:10"},{"用户ID":1000004829322180,"粉丝用户ID":"4377013688466912","关注时间":"2018-11-28 04:34:59"},{"用户ID":1000004881722110,"粉丝用户ID":"2035084972603372","关注时间":"2021-04-29 10:55:03"},{"用户ID":1000004881722110,"粉丝用户ID":"5063045278988506","关注时间":"2018-11-27 21:13:15"}]}

应用场景

  • 舆情监测与风险预警(文本理解 + 时序建模)

    依托帖子与回帖的正文、发布时间与互动量(阅读、点赞、评论),可以构建面向上市公司与行业主题的舆情监测体系。首先以分词、命名实体识别与情感极性分析抽取关键信息,再结合时间序列对情绪强度、关注度与传播速度进行动态刻画,识别异常波动与突发事件线索。在实务中,可基于“帖子-回帖”的层级关系提炼主观点与反驳/附和关系,构建事件演化链与观点极化指数;将该指数与市场行情或公告时间点对齐,可用于风控预警、公关响应优先级排序以及对投研线索的辅助筛选,提升监控的灵敏度与可解释性。

  • 推荐与排序系统(内容画像 + 用户画像 + 互动反馈)

    数据集中“帖子内容/时间/互动计数”和“用户活跃与兴趣指标”形成了训练推荐系统的天然素材。可以以帖子文本与元数据(股吧代码、标题、简介等)构建内容向量,以用户的主帖/评论数、自选股数量、访问次数等行为特征构建用户向量,再结合阅读量、点赞数、评论数作为显式或近似反馈信号,训练召回与排序模型(如双塔、序列推荐、对比学习)。同时,利用“粉丝关系”表构建社交正则化或好友传播特征,缓解冷启动问题并提升个性化推荐的稳定性,实现从热门贴分发到个性化长尾内容曝光的全链路优化。

  • 社交网络分析与影响力建模(关注图谱 + 互动网络)

    粉丝关系表刻画了用户间的有向关注边,配合帖子与回帖的互动记录,可以构建多层次的社交图谱。通过度中心性、介数中心性与 PageRank 等指标,识别潜在关键节点与话题引领者;结合时间信息评估信息扩散速度与路径,分析观点从高影响力用户向外围用户的传播规律。在业务落地中,这类网络特征不仅可以服务于优质内容的加权曝光与社区治理,也能辅助识别异常刷量、僵尸网络与灰产链路,为风控与反舞弊提供可量化的证据。

  • 事件研究与量化因子构建(文本因子 + 行为因子)

    数据集中包含的财报问询、公告讨论等主题文本,为事件研究提供了自然语料。可围绕公告前后窗口期构建基于文本情绪、主体实体、主题强度的文本因子,并与阅读/点赞/评论的互动强度因子相结合,形成跨模态的舆情因子库。进一步地,将因子与二级市场指标做相关性与回测分析,可探索具有稳健性的超额收益线索;在机构环境中还可作为投研辅助工具,为选股与风控规则提供数据支撑与可解释的证据。

  • 大语言模型与 NLP 算法训练(监督微调 + 指标评测)

    帖子与回帖的真实社区语料具备口语化、领域实体密集与观点冲突等特点,适合用于大语言模型的监督微调与对齐训练。可以构造摘要、情感分类、主题抽取、观点立场识别与问答生成等监督数据集;同时,以时间与互动量为弱标签,开展难例挖掘与偏好建模。评测方面,可基于人工标注的小样本任务集,对比不同算法在财经中文场景下的稳健性和可解释性,推动模型在垂直场景的落地效果。

结尾

该数据集以“帖子—回帖—用户—关系”四位一体的结构化设计,兼具文本深度、互动密度与社交广度,能够一站式支撑舆情分析、推荐系统、社交网络挖掘、量化研究与大模型训练等多种任务。其字段规范、质量稳健、扩展性强,适合科研教学与产业落地的双重需求。若需要更多样本、字段字典或增量更新方案,欢迎进一步沟通以获取支持。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1170173.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

蓝牙学习之Provision(7)bind (1)

在 Bluetooth Mesh 网络中,设备完成 Provisioning(配网) 后,虽然已分配了 地址(Unicast Address) 和 网络密钥(NetKey),但此时它还不能接收任何应用层命令(如…

JD商品评论数据集:真实用户评论情感分析数据,中文自然语言处理语料,学习深度学习模型训练、文本挖掘、电商推荐系统优化、产品评价分析、客户服务改进及自然语言处理教学

参考数据:JD评论数据集 引言与背景 在当今数字化时代,电商平台的用户评论数据已成为企业决策、产品优化和用户体验改进的重要依据。特别是在笔记本电脑这一高价值消费电子产品领域,用户评论不仅反映了产品的真实使用体验,更蕴含着…

戴尔警告:SSD短缺下重复使用闪存存在风险

戴尔副总裁警告称,在SSD供应短缺的情况下,回收已安装的SSD进行重复使用存在数据丢失风险。戴尔产品管理副总裁David Noy提出质疑:"当供应链短缺威胁到你的AI建设计划时,你会信任谁?"由于SSD供应短缺预计将持…

导师推荐!专科生必看!8款AI论文平台测评与推荐

导师推荐!专科生必看!8款AI论文平台测评与推荐 2026年专科生论文写作工具测评:为何值得一看 随着AI技术的不断进步,越来越多的学术辅助工具进入高校市场,为学生和研究者提供便捷服务。然而,面对众多平台&am…

蓝牙学习之Provision(6)Provison Complete

Provision Complete 之后会上报设备的节点信息和provision状态。<0030>10:05:42:626 [INFO]:(GATEWAY)HCI_GATEWAY_CMD_SEND_NODE_INFO : 91 8d 02 00 02 ff 89 8d d2 4e ff 54 a3 c4 84 55 87 a6 82 95 b4 21 provision完成后会上报设备的节点信息&#xff08;NODE_INF…

SK海力士开发分割单元5位闪存技术

SK海力士在去年12月举行的2025年旧金山IEDM会议上展示了其最新的5位单元NAND闪存技术。该方法将3D NAND单元分割为两半&#xff0c;在提高位级别的同时将所需电压状态数量减少约三分之二&#xff0c;该公司表示这能提升速度和耐久性。SK海力士展示的主题为"五级单元NAND的…

实用指南:Transformer实战(30)——Transformer注意力机制可视化

实用指南:Transformer实战(30)——Transformer注意力机制可视化pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "…

柏林AI客服平台Parloa获得3.5亿美元融资打造对话式企业体验

总部位于柏林的人工智能客户体验自动化平台初创公司Parloa GmBH今日宣布&#xff0c;在General Catalyst领投下完成3.5亿美元后期融资&#xff0c;公司估值达30亿美元。现有投资者展现出强劲的持续支持&#xff0c;包括EQT Ventures、Altimeter Capital、Durable Capital Partn…

导师严选8个AI论文平台,研究生高效写作必备!

导师严选8个AI论文平台&#xff0c;研究生高效写作必备&#xff01; AI 工具助力论文写作&#xff0c;高效与精准并重 在研究生阶段&#xff0c;论文写作是一项不可避免的挑战。无论是开题报告、文献综述&#xff0c;还是实证分析、结论撰写&#xff0c;每一步都要求严谨和高效…

工业级双通道 AI 语音处理模块 A-59U 深度解析:降噪消回音 + 多场景适配方案

在语音交互设备普及的当下&#xff0c;回音干扰、环境噪音、拾音距离受限等问题&#xff0c;严重影响语音识别准确率与通话体验。A-59U 作为工业级双通道多模语音处理模块&#xff0c;融合 AI 神经网络降噪、深度回音消除、定向拾音等核心技术&#xff0c;为各类音频设备提供一…

采用螺旋--蛇形部署的分布式光纤传感器:实现袋式锂离子电池高精度全场温度重建与热管理

关键词&#xff1a;锂电池测温、分布式光纤传感 、OFDR 、温度传感 、光纤动态监测 、光频域反射技术一.概述锂离子电池在电动汽车与储能系统中的规模化应用&#xff0c;对热管理安全性提出严苛要求。本文基于光频域反射技术的分布式光纤传感器&#xff08;DOFS&#xff09;&am…

MongoDB整合数据库与嵌入模型简化AI开发

MongoDB公司今日宣布推出一系列新功能&#xff0c;旨在帮助人工智能开发者和创业者更快地将应用程序从原型转向生产环境。这些新功能包括Voyage 4系列嵌入模型的正式发布&#xff0c;以及MongoDB创业公司计划的扩展。新特性进一步加强了MongoDB核心数据库平台与去年收购Voyage …

阿联酋发布全球领先阿拉伯语大语言模型Falcon-H1

阿布扎比技术创新研究所&#xff08;TII&#xff09;正式发布Falcon-H1 Arabic大语言模型&#xff0c;该模型确立了其作为全球领先阿拉伯语人工智能系统的地位&#xff0c;进一步强化了阿联酋在高性能AI领域与全球领导者竞争的雄心。Falcon-H1 Arabic由阿布扎比先进技术研究委员…

nRF54LM20B 芯片相关技术: Nordic端到端边缘AI方案

目录 概述 1 边缘AI介绍 2 核心硬件配置 3 Axon NPU 4 AI性能与能效亮点 5 主要应用方向 概述 Nordic Semiconductor新推出的nRF54LM20B是一款专为电池供电物联网设备设计的、集成神经网络处理器&#xff08;NPU&#xff09;的超低功耗无线系统级芯片&#xff08;SoC&…

【1 月小记】Part 6: DP 优化 - L

DP 优化 持续更新中…… 前缀和优化 P2513 [HAOI2009] 逆序对数列 这题不加优化也能过,难崩 考虑这个状态定义是怎么来的。倘若尝试将 \(n\) 排列的具体顺序融入状态定义会发现需要维护一个状压状的维度,数据范围太大…

【C语言图形学】用*号绘制完美圆的三种算法详解与实现【AI】

前言 在控制台中使用字符绘制图形是学习计算机图形学和算法设计的绝佳入门方式。今天&#xff0c;我们将深入探讨如何在C语言中使用*号绘制一个完美的圆。这不仅是一个有趣的编程练习&#xff0c;更是理解计算机图形学基础算法的好机会。 一、绘制圆的挑战 在开始之前&#xff…

最新Illustrator AI 2026软件下载与安装教程指南

相信从事设计类专业或工作的小伙伴,应该不会感到陌生。Adobe Illustrator(常常被简称为Ai)是一款功能强大且应用较为广泛的矢量图形设计软件工具,广泛应用于平面设计、插画、品牌标识、网页图形等领域。‌目前,最…

【节点】[DepthFade节点]原理解析与实际应用 - 指南

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

2026精选课题-基于spingboot茶文化推广系统的设计与完成

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

2026国内最新棉麻面料品牌top10推荐!广东广州等地优质棉麻面料企业权威榜单发布,品质与创新双优助力服饰产业升级 - 品牌推荐2026

随着服饰消费市场向天然、舒适、功能性方向深度转型,棉麻面料凭借其环保属性与穿着体验,成为品牌产品创新的核心载体。据中国纺织工业联合会最新行业报告显示,2025年国内棉麻面料市场规模突破800亿元,年复合增长率…