2. 假新闻检测 - 《FakingRecipe: Detecting Fake News on Short Video Platforms from the Perspective of ...》

前言

本文阅读论文《FakingRecipe: Detecting Fake News on Short Video Platforms from the Perspective of Creative Process》。现有的假新闻检测方法主要侧重于分析所呈现内容,而文章的实证分析揭示了假新闻视频在素材选择和编辑方面的独特特征。

核心内容细节
问题现有检测方法多从“内容本身”出发,分析多模态内容的真实性或多模态一致性。然而,由于短视频易于编辑和重新利用,这些方法容易被“重新编辑”或“二次创作”的内容误导。
动机作者提出从 “新闻视频是如何创作的” 这一角度出发,分析假新闻的制作过程。假新闻创作者通常缺乏一手真实材料和专业编辑技能,但仍为特定目的制作虚假内容。在素材选择方面,假新闻常使用情绪化的音频、语义不一致的视觉素材等。在素材编辑方面,假新闻在空间布局(如文本叠加)和时间剪辑(如片段拼接)上往往较为简单粗糙。
观察统计结果证实,真实和虚假新闻视频在素材选择和编辑方面存在统计差异。例如,与真实视频相比,假新闻视频倾向于选择更具情感色彩的音乐,使用有限的色调,并采用不那么动态的屏幕文本呈现。
方法FakingRecape 设计了一个双分支网络,素材选择感知建模(MSAM)模块通过注意力提取多模态特征,以捕捉音频和文本之间的情感共鸣、文本和视觉之间的语义相关性。素材编辑感知建模(MEAM)模块通过分析视觉区域和屏幕文本以进行空间编辑,同时构建层次化的时间结构。最终,整合两个分支的预测以获得最终预测。

文章目录

  • 前言
  • 一、统计观察
    • 1. 假新闻的素材选择
      • 1.1. 观察1:假新闻倾向于选择更具情绪感染力的音频
      • 1.2. 观察2:假新闻视觉材料与文本的语义一致性较低
    • 2. 假新闻的素材编辑
      • 2.1. 观察3:假新闻在叠加文本时倾向于使用较为单调的文本视觉效果
      • 2.2. 观察4:假新闻在时间剪辑上倾向于采用相对简单的片段排列方式
  • 二、核心方法
    • 1. 总框架
    • 2. 实现细节
      • 2.1. Two-Way Attention
      • 2.2. 时间编辑建模
  • 总结

一、统计观察

1. 假新闻的素材选择

1.1. 观察1:假新闻倾向于选择更具情绪感染力的音频

  • 方法:使用经过情感分类微调的 wav2vec 模型对音频情感进行分析。
  • 发现:假新闻视频更倾向于使用情感强烈的音频(如图2所示)。
  • 解释:情感强烈的内容更容易引发分享行为,假新闻创作者可能故意选择情绪化的音频以增强观众参与度和传播效果

1.2. 观察2:假新闻视觉材料与文本的语义一致性较低

  • 方法:使用 CLIP 模型提取文本和视觉特征,计算二者之间的 JS 散度 作为一致性指标,值越低表示一致性越高。
  • 发现:假新闻视频的文本与视觉内容之间的语义一致性显著低于真实新闻(如图3所示)。
  • 解释:由于假新闻往往缺乏相关的一手视频素材,创作者不得不使用从网络上收集的、与文本主题不完全匹配的历史素材,导致语义不一致。

2. 假新闻的素材编辑

2.1. 观察3:假新闻在叠加文本时倾向于使用较为单调的文本视觉效果

  • 定义:空间编辑行为主要指在原视频画面上叠加额外的图层,如文本、贴纸等。文章重点分析文本叠加这一常见操作(在 FakeSV 数据集中占 85%)。
  • 方法:通过量化文本区域的颜色丰富度来比较真假新闻视频。
  • 发现:真实新闻视频在文本呈现上使用更丰富的颜色,而假新闻视频更倾向于使用单色或颜色简单的文本(如图4所示)。
  • 解释:真实新闻创作者通常遵循编辑规范,注重呈现质量;假新闻创作者可能缺乏专业制作知识,忽略这些细节对观众感知的影响。

2.2. 观察4:假新闻在时间剪辑上倾向于采用相对简单的片段排列方式

  • 定义:时间编辑行为主要指对多个素材片段进行重组与拼接。文章重点分析文本曝光的时间动态性。
  • 方法:定义了一个衡量文本呈现的动态程度的指标 ,曝光时间短且变化大则动态性高。
  • 发现:真实新闻视频的文本呈现更具动态性,而假新闻视频的文本呈现较为静态、单调(如图5所示)。
  • 解释:真实新闻创作者通常具备专业媒体训练,更擅长将文本与视觉元素动态结合;假新闻内容通常较为单薄,缺乏足够的信息支撑复杂的动态呈现,因此倾向于在屏幕特定区域静态放置有限信息。

二、核心方法

1. 总框架


情感角度建模:文章认为情感表达主要来自音频和文本语调,因此用 HuBERT 编码器提取音频情感特征,用 XLM-RoBERTa 编码器提取文本情感特征,将两者拼接后,输入一个 Transformer 层,通过自注意力机制融合,得到统一的情感特征表示;

语义角度建模:文章认为视觉和文本内容在语义传递中起主导作用,音频(BGM)作用较小。因此,用 CLIP 分别提取文本语义特征和视频关键帧中的视觉语义特征,然后用协同注意力得到视觉增强的文本特征、文本增强的视觉特征 ,最后对上述特征拼接,再输入一个 Transformer 层,得到统一的语义特征表示;

预测输出: 拼接情感特征和语义特征,并输入一个两层 MLP,得到从素材选择角度出发的假新闻预测分数;

空间编辑建模:为分析视频中文本叠加的视觉特征,选取文本区域最大的帧作为代表性帧,并用 VIT 编码。同时,用 CRAFT(OCR 检测模型) 定位文本区域,再用 SAM 将文本区域转换为提示嵌入。然后,设计 Two-Way Attention 块,进行“提示→图像”和“图像→提示”的双向注意力交互,增强对文本区域的关注,得到更新后的视觉编码。最后,通过两层卷积进行下采样并展平,得到空间模式特征;

时间编辑建模:分析文本片段与视频片段的时间排列结构。文章忽略背景音乐,分别提取文本序列和视觉序列的片段特征 Seg。对于文本,拼接后统一编码;对于视觉,使用自注意力机制融合多个帧并取平均。然后,分别计算两个模态片段的位置编码 PE 和时长编码 DE。最后,对于每个模态,计算每个片段的三个特征的和,并用自注意力机制融合所有片段特征,得到时间模式特征;对于模态之间,用 Transformer 层融合得到统一的时间编辑特征;

预测输出: 拼接空间特征和时间特征,并输入一个两层 MLP,得到从素材编辑角度出发的假新闻预测分数;
最终输出:tanh 起到了一个软权重的作用,若 MEAM 模块对某视频的编辑特征非常确信,则会显著放大或缩小 MSAM 的预测,先前工作证明这种融合方式能增强模型的表达能力。

2. 实现细节

2.1. Two-Way Attention

  • 提示自注意力:让不同的文本区域提示之间进行交互,理解它们之间的空间关系。
  • 交叉注意力:图像到提示以图像特征为 Q,增强图像中对文本区域的响应;提示到图像以提示为 Q,找出与文本提示最相关的视觉上下文

2.2. 时间编辑建模

  • 位置编码:RoPE
  • 时间编码:将时长值映射到预定分组,根据分组编号检索对应可学习嵌入向量,再拼接绝对和相对时长嵌入表。

    其中,绝对时长 = 结束帧和起始帧的片段索引差,相对时长 = 绝对时长占总视频帧比例:

总结

文章的局限性如下:

  • 观察缺乏理论基础:模型设计主要基于对数据集的统计分析,未能完全对应或融入新闻学、传播学中关于虚假信息创作的理论知识,这可能导致模型对“创作过程”的理解不够本质和深刻。
  • 创作特征需要持续更新:随着造假者技术的演进和策略的变化,当前模型捕捉到的“创作特征”可能会过时,因此模型在现实应用中可能需要定期更新以保持效力。
  • 未探索大模型的深度结合:实验部分虽然测试了 GPT-4 的零样本性能,但并未深入探索如何将本文提出的“创作过程感知”能力与强大的 (M)LLMs 相结合。

未来工作可以从以下几点展开:

  • 与新闻学与传播学进行学科交叉:让“创作过程”的建模建立在关于虚假信息生产动机、条件和策略的理论理解之上,从而提升模型的解释性和泛化能力。
  • 与大型多模态模型的融合:考虑如何将 FakingRecipe 的核心思想(创作过程感知)“装备”给 (M)LLMs。通过提示工程、思维链、适配器微调等高级技术,让 (M)LLMs 具备分析视频创作过程的能力,从而结合 (M)LLMs 的强大通用知识与本方法的领域特定洞察。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1125936.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Java SpringBoot+Vue3+MyBatis 网上超市设计与实现系统源码|前后端分离+MySQL数据库

💡实话实说:CSDN上做毕设辅导的都是专业技术服务,大家都要生活,这个很正常。我和其他人不同的是,我有自己的项目库存,不需要找别人拿货再加价,所以能给到超低价格。摘要 随着互联网技术的快速发…

1. 假新闻检测 - 《Modality Perception Learning-Based Determinative Factor Discovery ...》

前言 本文阅读论文《Modality Perception Learning-Based Determinative Factor Discovery for MultimodalFake News Detection》。虚假新闻通常依赖夸张的语言风格、篡改的图像、不一致的多模态上下文等特征。虚假新闻检测应遵循“逻辑与”原则,即便大部分内容合理…

Java Web 网上购物商城系统系统源码-SpringBoot2+Vue3+MyBatis-Plus+MySQL8.0【含文档】

💡实话实说:CSDN上做毕设辅导的都是专业技术服务,大家都要生活,这个很正常。我和其他人不同的是,我有自己的项目库存,不需要找别人拿货再加价,所以能给到超低价格。摘要 随着互联网技术的快速发…

vscode下载/常用插件分享及如何链接Ubuntu

这里做一个大佬们分享的整合: Vscode下载及常用插件分享: VSCode安装配置使用教程(最新版超详细保姆级含插件)一文就够了_vscode使用教程-CSDN博客 用Vscode连接Ubuntu: Vscode连接Ubuntu!看这一篇就够…

idea不能使用低版本插件问题解决

idea升级之后,插件无法在高版本使用,开发者也不维护了下载插件 https://plugins.jetbrains.com/search?excludeTagsinternal&productsidea修改插件版本范围 将下载的zip压缩包解压,找到插件源代码的jar包里面的jar包和zip包的版本号是一样的,在bin中,根据版本号比较好找编…

MCU+AT到OpenCPU:嵌入式通信技术迭代的必然性(完结篇)

上一篇在充分理解了OpenCPU的技术优势与架构潜力后,一个现实而关键的问题摆在工程师及企业面前:如何在实际工程中,将现有的MCUAT模组架构,安全、平滑地演进至OpenCPU平台?第六章:迁移与融合策略——从MCUAT…

基于Python+Django+SSM美妆产品网络评价数据采集与分析(源码+LW+调试文档+讲解等)/美妆产品评价分析/网络评价数据采集/美妆数据采集/美妆评价分析/美妆产品网络数据/美妆产品评价数据

博主介绍 💗博主介绍:✌全栈领域优质创作者,专注于Java、小程序、Python技术领域和计算机毕业项目实战✌💗 👇🏻 精彩专栏 推荐订阅👇🏻 2025-2026年最新1000个热门Java毕业设计选题…

MCU+AT架构的演进:向OpenCPU转型的必然性(完结篇)

上一篇在充分理解了OpenCPU的技术优势与架构潜力后,一个现实而关键的问题摆在工程师及企业面前:如何在实际工程中,将现有的MCUAT模组架构,安全、平滑地演进至OpenCPU平台?第六章:迁移与融合策略——从MCUAT…

深度实战:AirCloud与excloud扩展库集成下的核心功能应用解析!

随着边缘侧业务复杂度的提升,单一平台能力已难以满足多样化场景需求。AirCloud平台在设备管理、状态同步与远程控制方面表现优异,而excloud扩展库则通过模块化设计补足了功能延展的短板。二者集成后,形成了“基础扩展”的技术合力。聚焦于Air…

快速上手iPerf:新手网络测试环境搭建详解!

快速上手iPerf的关键,在于高效搭建网络测试环境。这款工具的环境搭建流程简洁明了:先在服务端运行监听命令,再在客户端指定目标地址发起测试,即可获取网络带宽、延迟等数据。本文针对新手需求,详细拆解iPerf环境搭建的…

大规模语言模型在精准医疗方案生成中的应用

大规模语言模型在精准医疗方案生成中的应用 关键词:大规模语言模型、精准医疗方案、医疗数据处理、模型应用、医学知识推理 摘要:本文聚焦于大规模语言模型在精准医疗方案生成中的应用。首先介绍了研究的背景、目的、预期读者、文档结构及相关术语。详细阐述了大规模语言模型…

【更新至2024年】1996-2024年各省公路里程数据

【更新至2024年】1996-2024年各省公路里程数据 1、时间:1996-2024年 2、来源:国家统计局、统计年鉴 3、指标:公路里程(万公里) 4、范围:31省 5、指标解释:公路里程指报告期末公路的实际长度…

【更新至2024年】1996-2024年各省铁路营业里程数据

【更新至2024年】1996-2024年各省铁路营业里程数据 1、时间:1996-2024年 2、来源:国家统计局、统计年鉴 3、指标:铁路营业里程 4、范围:31省 5、指标解释:铁路营业里程又称营业长度,指投入客货运输正式…

【项目中的经验总结】

知识点一:多电源域下 Dummy Gate 的连接问题 1. 背景说明 在 MOS 管版图中,dummy gate 常用于满足工艺对栅极密度、对称性和边缘效应的要求。 Dummy gate 虽不参与功能,但仍具有栅氧层及栅-源 / 栅-漏寄生电容,不能视为“完全无效…

Node.js用readableLength轻松控流

💓 博客主页:瑕疵的CSDN主页 📝 Gitee主页:瑕疵的gitee主页 ⏩ 文章专栏:《热点资讯》 Node.js流控新境界:利用readableLength实现高效背压管理目录Node.js流控新境界:利用readableLength实现高…

从C到汇编:参数传递的内存地址探秘

在编程的世界里,了解程序如何在内存中布局和操作是每个程序员的基本功。今天我们来深入探讨一个关于参数传递的经典问题:在C语言中,如何找到一个函数参数在内存中的确切地址。 背景介绍 假设我们有一个C语言函数caller,它调用另一个函数swap_add,并传递两个参数arg1和ar…

[特殊字符]_Web框架性能终极对决:谁才是真正的速度王者[20260107173025]

作为一名拥有10年开发经验的全栈工程师,我经历过无数Web框架的兴衰更替。从早期的jQuery时代到现在的Rust高性能框架,我见证了Web开发技术的飞速发展。今天我要分享一个让我震惊的性能对比测试,这个测试结果彻底改变了我对Web框架性能的认知。…

深入探讨Clang-Tidy与Bazel的整合

在现代软件开发中,代码质量和可维护性是至关重要的。Clang-Tidy作为一个强大的静态分析工具,可以帮助开发者发现并修复代码中的潜在问题。然而,当Clang-Tidy与构建工具Bazel结合使用时,可能会遇到一些有趣的挑战。本文将通过一个实例,探讨如何正确配置和使用Clang-Tidy来分…

Python设计模式:享元模式详解

享元模式的核心思想享元模式(Flyweight Pattern)通过共享对象减少内存占用,适用于存在大量重复对象的场景。其核心是将对象的内在状态(可共享)与外在状态(不可共享)分离,通过共享内在…

[特殊字符]_安全性能平衡术:如何在保证安全的前提下提升性能[20260107173816]

作为一名经历过多次安全事件的工程师,我深知在Web应用开发中安全与性能的平衡是多么重要。最近,我参与了一个金融级应用的开发,这个项目让我重新思考了安全机制对性能的影响。今天我要分享的是如何在保证安全的前提下提升Web应用性能的经验。…