大模型GUI系列论文阅读 DAY4续:《Large Language Model Agent for Fake News Detection》

摘要

在当前的数字时代,在线平台上虚假信息的迅速传播对社会福祉、公众信任和民主进程构成了重大挑战,并影响着关键决策和公众舆论。为应对这些挑战,自动化假新闻检测机制的需求日益增长。

预训练的大型语言模型(LLMs)在各种自然语言处理(NLP)任务中表现出卓越的能力,这促使人们探索其在新闻真实性验证方面的潜力。然而,传统的 LLM 使用方式通常是非代理化(non-agentic)的,即模型基于直接提示一次性生成响应。

为此,我们提出了一种新的代理化(agentic)方法——FactAgent,用于假新闻检测。FactAgent 使 LLM 能够模拟人类专家在新闻真实性验证中的行为,而无需额外的模型训练。FactAgent 遵循结构化工作流程,将复杂的新闻真实性检查任务拆解为多个子步骤,LLM 利用其内部知识或外部工具来完成简单任务。在工作流程的最终步骤,LLM 汇总整个过程中的所有发现,以确定新闻声明的真实性。

与手动人工验证相比,FactAgent 提供了更高的效率。实验研究表明,FactAgent 在无需训练的情况下能够有效地验证新闻声明。此外,FactAgent 在工作流程的每个阶段以及最终决策时,均提供透明的解释,为最终用户提供有关假新闻检测推理过程的深刻见解。

FactAgent 具有极高的适应性,使得 LLM 可以轻松利用更新的工具,同时也可以使用领域知识对工作流程本身进行调整。这种适应性使 FactAgent 能够广泛应用于不同领域的新闻真实性验证。

1. 引言

在现代数字时代,社交媒体和在线平台的普及加剧了假新闻的传播。假新闻通常以可信新闻的外观呈现,但其实包含虚假或误导性信息。假新闻的泛滥对社会福祉、公众信任和民主进程构成严重威胁,可能引发恐慌、影响公众舆论,并左右关键决策。为了减少假新闻传播的负面影响,尤其是在其广泛传播之前,及时检测假新闻至关重要。

尽管PolitiFactSnopes 等事实核查网站雇佣专业人员进行手动核查,但面对信息爆炸的时代,这种人工核查方式往往耗时且难以扩展。因此,自动化假新闻检测解决方案至关重要。近年来,基于深度神经网络的假新闻检测模型被广泛研究,并已显示出一定的成效。然而,这些模型通常依赖于人工标注的数据进行训练,而这种标注数据可能难以获得,或者在实践中成本较高。

大型语言模型(LLMs) 在各种自然语言处理(NLP)任务中表现出了卓越的能力,这促使我们探索其在假新闻检测中的潜力。专业事实核查人员在核查新闻时,往往需要整合来自多个(有时是相互矛盾的)来源的信息,以形成一致的叙述,这凸显了在发布之前核实细节的重要性。

FactAgent:代理化的假新闻检测方法

在本研究中,我们提出了一种创新的代理化(agentic)方法——FactAgent,专门用于假新闻检测。与传统的非代理化方式(LLMs 仅响应直接提示或在上下文中生成答案)不同,FactAgent 采用结构化工作流程,将复杂的新闻核查任务拆解为可管理的子步骤。LLMs 在此流程中利用其内部知识和外部工具,协同解决整体任务。

主要贡献

我们提出的FactAgent在假新闻检测方面的主要贡献包括:

  • 基于代理的结构化工作流程
    FactAgent 采用结构化的工作流程,使LLMs能够整合内部知识和外部工具以核查新闻声明。FactAgent无需依赖人工标注数据,具备高效性,并能够轻松适应不同新闻领域的核查需求。

  • 早期检测和可解释性
    FactAgent 能够在假新闻传播的早期进行识别,而无需依赖社交媒体传播信息。此外,在核查的每个步骤中,FactAgent 提供透明的解释,增强可解释性,帮助用户理解决策过程。

  • 高效性与适应性
    在三个真实世界数据集上的实验结果表明,FactAgent 在假新闻检测方面表现优异。我们比较了基于专家设计的工作流程与自动化自生成工作流程的效果,结果突显了领域知识在专家工作流程设计中的重要性。


2. 相关工作

2.1 假新闻检测方法

当前的假新闻检测方法可以分为两大类:基于内容的方法基于证据的方法

  1. 基于内容的方法
    关注新闻文本本身的语言模式,例如写作风格和文章立场。这些方法通常利用 NLP 技术(如 LSTM、BERT)来分析文本特征。

  2. 基于证据的方法
    通过检索知识图谱或网页上的信息来验证新闻真实性。例如,Popat等人(2018)提出了 DeClarE 框架,利用双向 LSTM 和注意力机制来建模声明与证据的语义关系。

虽然现有的深度学习方法在假新闻检测方面取得了一定成效,但它们仍依赖于人工标注数据,这限制了其在没有标注数据的环境中的泛化能力。相比之下,FactAgent 不需要任何模型训练,而是结合LLMs的语义理解能力和外部搜索引擎进行证据检索。

2.2 代理化 LLM 研究

近年来,LLMs 的发展催生了多种应用场景,例如虚拟角色模拟、多人辩论等。相比于让 LLM 自主设计问题解决方案,FactAgent 采用结构化的专家工作流程,确保每一步都严格遵循人类专家的核查方式,利用LLMs的内部知识和外部工具来完成假新闻检测。


3. 方法论

FactAgent 通过模拟人类专家的行为,将复杂的新闻核查任务拆解为多个子步骤,并结合LLMs的内部知识和外部工具进行验证。为了实现这一目标,我们将核查工具分为两类:

  1. 基于 LLM 内部知识的工具(如语言工具、常识工具等)
  2. 结合外部知识的工具(如搜索工具、URL工具等)

工作流程示意图(图1)显示,FactAgent 在接收到新闻声明后,首先利用 LLM 判断该新闻是否与政治相关,如果是,则使用所有工具,否则跳过政治相关的工具。在最终步骤,所有证据将被汇总并与专家核查清单进行比对,以确定新闻声明的真实性。


4. 实验与结果

4.1 实验设置

我们在三个英文数据集(Snopes、PolitiFact 和 GossipCop)上评估了 FactAgent 的性能。实验对比了 FactAgent 与多种基线方法,包括:

  • LSTM、TextCNN、BERT 等监督学习方法
  • HiSS 方法(分层提示技术)
  • 零样本(Zero-shot)提示方式

实验采用准确率、F1分数 等指标进行评估。

4.2 假新闻检测性能(RQ1)

实验结果表明,FactAgent 在所有数据集上的表现优于其他基线模型,尤其是在未使用人工标注数据的情况下表现出色。这证明了FactAgent 结合 LLM 内部知识与外部工具的优势。

4.3 领域知识的重要性(RQ2)

实验表明,遵循专家工作流程的 FactAgent 在性能上优于自动化自生成的工作流程。这表明领域知识在核查流程设计中的重要性。

4.4 外部搜索引擎的重要性(RQ3)

排除外部搜索工具的实验结果显示,FactAgent 的性能下降,这表明仅依赖 LLM 内部知识无法有效检测假新闻,外部搜索引擎在验证冲突信息方面起着至关重要的作用。

4.5 决策策略的影响(RQ4)

使用多数投票决策策略的 FactAgent 性能低于基于专家清单的策略,说明让LLM灵活整合各工具信息比简单的投票规则更有效。


5. 结论

本文提出的 FactAgent 框架通过结构化工作流程使 LLM 能够像人类专家一样核查新闻真实性。与监督学习模型不同,FactAgent 无需训练或调整超参数,具有高效性和适应性。实验表明,FactAgent 在各个数据集上均展现了优越的泛化能力和解释能力。未来研究可进一步探索 FactAgent 在社交媒体数据、多模态分析及决策优化方面的潜力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/69778.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

LevelDB 源码阅读:写入键值的工程实现和优化细节

读、写键值是 KV 数据库中最重要的两个操作,LevelDB 中提供了一个 Put 接口,用于写入键值对。使用方法很简单: leveldb::Status status leveldb::DB::Open(options, "./db", &db); status db->Put(leveldb::WriteOptions…

【Proteus仿真】【51单片机】多功能计算器系统设计

目录 一、主要功能 二、使用步骤 三、硬件资源 四、软件设计 五、实验现象 联系作者 一、主要功能 1、LCD1602液晶显示 2、矩阵按键​ 3、加减乘除,开方运算 4、带符号运算 5、最大 999*999 二、使用步骤 基于51单片机多功能计算器 包含:程序&…

利用Manim库结合`matplotlib`、`numpy`和`scipy`来制作工作流程动画

以下是一个利用Manim库结合matplotlib、numpy和scipy来制作工作流程动画,展示流场速度分布计算模型,以及三流喷嘴的速度场和主要参数分布的可视化图形与动画的示例代码。这个示例将模拟一个简化的三流喷嘴速度场,通过计算速度分布并将其可视化…

origin调整图像的坐标轴,修改坐标轴起始点,增量

接上一篇帖子,如果再修改数据之后或者当前的数据之间差距较小,怎么通过调整坐标轴来使数据之间的差距更明显,举个例子, 像下面这个图的entropy指标,都是介于6到9之间,如果y轴坐标都从0开始,使用…

Redis_Redission的入门案例、多主案例搭建、分布式锁进行加锁、解锁底层源码解析

目录 ①. Redis为什么选择单线程? ②. 既然单线程这么好,为什么逐渐又加入了多线程特性? ③. redis6的多线程和IO多路复用入门篇 ④. Redis6.0默认是否开启了多线程? ⑤. REDIS多线程引入总结 ①. Redis为什么选择单线程? ①…

集合的奇妙世界:Python集合的经典、避坑与实战

集合的奇妙世界:Python集合的经典、避坑与实战 内容简介 本系列文章是为 Python3 学习者精心设计的一套全面、实用的学习指南,旨在帮助读者从基础入门到项目实战,全面提升编程能力。文章结构由 5 个版块组成,内容层层递进&#x…

2025年1月个人工作生活总结

本文为 2025年1月工作生活总结。 研发编码 使用sqlite3命令行查询表数据 可以直接使用sqlite3查询数据表,不需进入命令行模式。示例如下: sqlite3 database_name.db "SELECT * FROM table_name;"linux shell使用read超时一例 先前有个编译…

ARM嵌入式学习--第十一天(中断处理 , ADC)

--中断的概念 中断是指计算机运行过程中,出现某些意外情况需主机干预时,机器能自动停止正在运行的程序并转入处理新情况的程序,处理完毕后又返回被暂停的程序继续运行 --CPU处理事情的方式 -轮询方式 不断查询是否有事情需要处理&#xff0c…

android Camera 的进化

引言 Android 的camera 发展经历了3个阶段 : camera1 -》camera2 -》cameraX。 正文 Camera1 Camera1 的开发中,打开相机,设置参数的过程是同步的,就跟用户实际使用camera的操作步骤一样。但是如果有耗时情况发生时,会…

JavaScript原型链与继承:优化与扩展的深度探索

在 JavaScript 的世界里,万物皆对象,而每个对象都有一个与之关联的原型对象,这就构成了原型链的基础。原型链,简单来说,是一个由对象的原型相互连接形成的链式结构 。每个对象都有一个内部属性[[Prototype]]&#xff0…

vue2项目(一)

项目介绍 电商前台项目 技术架构:vuewebpackvuexvue-routeraxiosless.. 封装通用组件登录注册token购物车支付项目性能优化 一、项目初始化 使用vue create projrct_vue2在命令行窗口创建项目 1.1、脚手架目录介绍 ├── node_modules:放置项目的依赖 ├──…

分层多维度应急管理系统的设计

一、系统总体架构设计 1. 六层体系架构 #mermaid-svg-QOXtM1MnbrwUopPb {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-QOXtM1MnbrwUopPb .error-icon{fill:#552222;}#mermaid-svg-QOXtM1MnbrwUopPb .error-text{f…

350.两个数组的交集 ②

目录 题目过程解法 题目 给你两个整数数组 nums1 和 nums2 ,请你以数组形式返回两数组的交集。返回结果中每个元素出现的次数,应与元素在两个数组中都出现的次数一致(如果出现次数不一致,则考虑取较小值)。可以不考虑…

sublime_text的快捷键

sublime_text的快捷键 向下复制, 复制光标所在整行并插入到下一行:通过 CtrlShiftD 实现快速复制当前行的功能。 可选多行, 不选则复制当前行 ctrl Shift D 删除当前行:通过 CtrlShiftK 实现快速删除当前行的功能。 可选多行, 不选则删当前行 ctrl S…

[ACTF2020 新生赛]BackupFile1

题目 翻译&#xff0c;尝试找出源文件&#xff01; 扫目录使用参数-e * python dirsearch.py -u http://0c3b21c0-d360-4baa-8b97-aa244f4c4825.node5.buuoj.cn:81/ -e * 最终扫描到一个文件名为&#xff1a;/index.php.bak的文件&#xff0c;把备份文件下载下来 源码 <?…

OPENPPP2 —— VMUX_NET 多路复用原理剖析

在阅读本文之前&#xff0c;必先了解以下几个概念&#xff1a; 1、MUX&#xff08;Multiplexer&#xff09;&#xff1a;合并多个信号到单一通道。 2、DEMUX&#xff08;Demultiplexer&#xff09;&#xff1a;从单一通道分离出多个信号。 3、单一通道&#xff0c;可汇聚多个…

DeepSeek-R1大模型本地部署及简单测试

目录 DeepSeek-R1大模型本地部署及简单测试背景我的测试环境模型参数选择适用场景参数规模 本地部署安装 DeepSeek-R1大模型本地部署及简单测试 背景 最近deepseek非常火, 要说2025年震惊科技圈的事件要数DeepSeek这个国产AI的横空出世&#xff0c;这是一款免费、开源且隐私优…

C# 数组和列表的基本知识及 LINQ 查询

数组和列表的基本知识及 LINQ 查询 一、基本知识二、引用命名空间声明三、数组3.1、一维数组3.2、二维数组3.3、不规则数组 Jagged Array 四、列表 List4.1、一维列表4.2、二维列表 五、数组和列表使用 LINQ的操作和运算5.1、一维 LIST 删除所有含 double.NaN 的行5.2、一维 LI…

C++计算给定序列在多次修改前后满足特定条件的极大匹配方案的大小

给定长度为n的整数序列 a 1 , a 2 , . . . , a n a_1,a_2,...,a_n a1​,a2​,...,an​和长度为n的01序列 b 1 , b 2 , . . . , b n b_1,b_2,...,b_n b1​,b2​,...,bn​。 对于 1 ≤ i < j ≤ n 1\leq i<j\leq n 1≤i<j≤n&#xff0c;称二元组 ( i , j ) (i,j) (i,j)…

强化学习笔记(3)——基于值函数的方法和策略梯度方法

分为两大类方法&#xff1a; 基于值函数的方法&#xff08;Temporal Difference Methods, TD Methods&#xff09; 策略梯度方法&#xff08;Policy Gradient Methods&#xff09;。 二者不同之处&#xff1a; 通过值函数来间接表达隐式的策略&#xff0c;一个是直接迭代优化策…