摘要
-
研究背景:网络平台虚假信息快速传播,破坏个体信任并阻碍理性决策,传统检测方法存在局限性。
-
核心方法:提出可解释且计算高效的检测流程,采用基于 Transformer 的预训练语言模型(PLMs),对 RoBERTa 和 DistilBERT 进行两步优化:
-
第一步:冻结模型骨干网络,仅训练分类头。
-
第二步:逐步解冻骨干网络层,同时应用分层学习率衰减(LLRD)。
-
-
实验设计:在两个真实世界基准数据集(COVID Fake News、FakeNewsNet GossipCop)上测试,采用统一的数据预处理和分层划分方案。
-
可解释性实现:整合两种解释方法保障透明度:
-
局部可解释性:通过 LIME(局部可解释模型无关解释)提供 token 级推理依据。
-
全局可解释性:借助 SHAP(SHapley 可加性解释)实现全局特征归因。
-
-
关键发现:DistilBERT 的检测准确率与 RoBERTa 相当,但所需计算资源显著更少。
-
核心贡献:
-
定量证明轻量级 PLM 在大幅降低计算成本的同时,能维持虚假信息检测任务性能。
-
提出可解释的检测流程,在不影响性能的前提下,获取可靠的局部和全局推理依据。
-
-
研究结论:结合规范微调与可解释性的 PLMs,可成为可扩展、可信的虚假信息检测有效框架。
核心贡献
-
轻量化且具竞争力的建模:在 COVID 虚假新闻数据集上,紧凑型预训练语言模型(PLM)DistilBERT 准确率与 RoBERTa 相当,且大幅降低计算成本 —— 训练日志显示其每轮训练时间约 397 秒,在 2041 个测试样本上推理吞吐量约 71.8 样本 / 秒、延迟约 13.9 毫秒 / 样本,为实时部署与边缘部署提供可行路径。
-
含分层学习率衰减(LLRD)的两阶段微调:采用 “先冻结骨干网络稳定任务适配,再逐步解冻网络层并实施分层学习率衰减” 的训练方案,缓解灾难性遗忘问题,提升模型收敛效果。
-
内置可解释性:整合 LIME(局部 token 级理据)与 SHAP(全局归因),为模型决策提供可信、人类可理解的依据,满足高风险场景下负责任 AI 的关键需求。
-
全面评估:除准确率外,还报告精确率、召回率、F1 值、AUROC 及效率指标(参数数量、每轮训练时间、推理延迟、吞吐量),实现与更强基准模型的全方位对比。
方法
-
数据收集与预处理
-
选用两个数据集:COVID Fake News 数据集、FakeNewsNet GossipCop 数据集(含真实 / 虚假新闻实例);
-
清洗文本(去除超链接、特殊字符、表情符号、HTML 标签块),并将文本统一转为小写以标准化格式,适配基于 Transformer 的语言模型训练。
-
-
模型选择
-
测试 4 种主流 Transformer 模型:DistilBERT、RoBERTa、社交媒体语言适配版 BERTweetbase、DeBERTa-v3-small;
-
通过对比确定最优模型架构,平衡准确率、计算效率与可解释性。
-
-
两阶段训练策略
-
针对 RoBERTa(高容量)和 DistilBERT(轻量型)两种模型,均搭配任务专属分类头(公式:$y^=Softmax(W2⋅Dropout(σ(W1⋅h[CLS])))$),避免过拟合的同时最大化性能;
-
阶段 1(特征提取):冻结预训练 Transformer 模型骨干,仅训练自定义分类头(含注意力机制、 dropout 层、密集层、softmax 输出层),保障语言表征通用性,适配二分类错误信息检测任务;
-
阶段 2(分层学习率衰减微调):逐步解冻所有 Transformer 层,对靠近输入嵌入的低层用较小学习率、靠近分类头的高层用较大学习率,实现模型对新数据的适配,同时防止 “灾难性遗忘”。
-
-
-
可解释性集成
-
局部可解释性:用 LIME 方法识别输入文本中影响最终预测的特定词元 / 短语;
-
全局可解释性:用 SHAP 方法计算并可视化全数据集中各特征的输入贡献;
-
两种方法结合,确保模型输出清晰、易懂、可靠,满足事实核查人员与学者的解读需求。
-