Beyond Translation: LLM-Based Data Generation for Multilingual Fact-Checking

news/2025/12/8 20:33:32/文章来源:https://www.cnblogs.com/xyc-blog/p/19323532

3 多语言数据集生成(Multilingual Dataset Generation)方法

一、核心目标

  构建可扩展、高效的自动化流程,生成高质量多语言事实核查数据集,支持英语、西班牙语、德语及低资源语言,包含 “支持(Supports)”“反驳(Refutes)”“信息不足(Not-info)” 三类声明 - 来源对,最终产出经 5 轮迭代优化的合成数据集。

二、具体流程(4 个核心组件 + 迭代优化)

1. 知识句子创建(Knowledge Sentences Creation)- 数据来源准备

(1)数据源选择

  • 采用 Wikipedia 作为事实知识来源,使用对应语言的特定版本 dump 文件:

    • 西班牙语、德语:2024 年 4 月版(20240401)

    • 英语:2024 年 8 月版(20240820)

  • 工具:通过wikitextparser库解析 Wikipedia 数据

(2)句子提取规则

  为每个 Wikipedia 条目生成 8 条知识句子,提升数据多样性:

  • 类型 1:从页面中随机抽取 5 条句子

  • 类型 2:从摘要部分抽取 3 条句子(首句 + 1 条随机句 + 尾句)

(3)刻意保留的局限性

  自动检索的来源可能存在不完整、格式错误或上下文不足的问题,此举旨在模拟真实场景中声明常有的模糊性与不完整性。

2. 声明生成(Claim Generation)- 核心内容生成

(1)模型选择

  采用Mistral-7B-Instruct-v0.3,核心依据是其在研究阶段具备较强的多语言处理能力。

(2)声明类别与生成要求

  • 目标类别:生成 3 类声明,分别对应标签supports(支持)、refutes(反驳)、not-info(信息不足)

  • 特殊要求:为增强模型对对比案例的敏感度,指令模型在声明中融入比较级 / 最高级形容词(如 larger、more、highest 等),助力模型学习来源 - 声明推理逻辑

  • 数据规模:随机选取 30,000 个 Wikipedia 条目(对应 240,000 条知识句子)作为生成基础

(3)提示词(Prompt)设计

  • 核心约束:声明需简洁(<30 词)、客观、自包含(不提及原始来源句子)、仅基于提供的知识句子生成,不添加额外信息或主观判断

  • 分类提示词差异:

    • supports:生成与来源句子事实一致的声明(示例见表 3)

    • refutes:生成与来源句子事实矛盾的伪造声明(示例见附录 A.2 表 13)

    • not-info:生成无法通过来源句子验证的声明(示例见附录 A.2 表 14)

3. 声明过滤(Claim Filtering)- 质量筛选

  采用 “LLM 评估 + MNLI 验证” 双重过滤机制,最小化人工干预,筛选高质量声明:

(1)LLM 过滤(同声明生成模型 Mistral-7B)

  • 评估维度(1-5 分制):

    • 自包含性(self-contained):声明是否无需额外上下文即可理解

    • 支持度(support):声明与来源句子的匹配程度

    • 客观性(objective):声明是否无主观偏见

    • 整体质量(quality):综合评估声明可用性

  • 类别分类:将声明分为 C0(与来源矛盾)、C1(与来源一致)、C2(无法通过来源验证)

  • 过滤规则:仅保留 “类别与目标标签一致”(C0→refutes、C1→supports、C2→not-info)且 “质量 + 自包含性得分>3” 的声明

(2)MNLI 过滤(跨语言自然语言推理验证)

  • 模型选择:mDeBERTav3-base-xnli-multilingual-nli-2mil7(经 XNLI 和 multilingual-NLI-26lang 数据集微调)

  • 任务转化:将知识句子作为 “前提(premise)”,生成的声明作为 “假设(hypothesis)”

  • 类别映射:

    • entailment(蕴含)→ supports

    • contradiction(矛盾)→ refutes

    • neutral(中立)→ not-info

  • 过滤规则:剔除模型预测类别与目标标签不一致的声明,确保语义一致性

4. 声明评估(Claim Evaluation)- 质量校验

(1)自动评估

  • 核心指标:通过 BLEU-4、ROUGE-L、METEOR 三种指标,衡量声明与来源句子的词汇相似度,验证语义对齐程度

  • 输出:生成两类数据集

    • 无 MNLI 过滤(no_mnli_filtering):380 万条实例(仅经 LLM 过滤)

    • 有 MNLI 过滤(mnli_filtering):220 万条实例(经 LLM+MNLI 双重过滤,即最终核心数据集 MultiSynFact)

(2)人工评估

  • 抽样规则:对每个类别随机抽取 10 条声明,由 2 名作者进行打分

  • 评估维度(1-5 分制):

    • 整体质量:声明的连贯性与信息量

    • 语法正确性:语言表达无语法错误

    • 语义关系:声明与来源句子的逻辑、事实关联准确性

    • 标签准确性:声明类别标签是否正确

  • 迭代优化:若某轮生成的声明在所有维度得分未达 4 分以上,需调整提示词并重新执行生成 - 过滤流程,直至满足质量要求

三、最终数据集输出

数据集类型 实例数量 核心特征
无 MNLI 过滤(no_mnli_filtering) 3.8M 仅经 LLM 过滤,规模大
有 MNLI 过滤(mnli_filtering) 2.2M 经双重过滤,质量更高,含英、西、德三语

四、关键特性

  1. 可扩展性:流程不依赖特定语言,可适配所有 LLM 和 MNLI 模型支持的语言,尤其适用于低资源语言

  2. 低耗高效:大幅减少人工标注成本与时间,通过自动化流程实现大规模数据集生成

  3. 质量可控:通过 “生成 - 过滤 - 评估” 的迭代机制(5 轮优化),确保声明的客观性、自包含性与语义对齐性

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/993494.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

道2:汉语和英语是互相独立的系统,学习英语就是学习“切换系统”

……汉语系统VS英语系统 语音: 1、元音的“松紧不分”,/i/和/i:/ 2、辅音的“画蛇添足” 3、音的“缺失替代” 4、节奏混淆,英语重音计时,汉语音节计时 语法: 英语是屈折语,通过单词形态变化传递很多信息。 汉语是…

go缓存设计 redis 发布订阅

go缓存设计 redis 发布订阅一般缓存 有内存缓存, 没有就读redis, redis没有就读tidb;如何防止缓存穿透,这里我们用golang.org/x/sync/singleflight解决,还有缓存更新,比如多个节点如何更新,这里借用redis 发布订…

npm几个实用命令

现在前端开发基本每天都会用到npm命令,最近在解决安全团队报告的安全风险时,发现了几个npm非常实用的命令,特记录下来...前言 最近接到公司安全团队的项目风险表格,列出了当前前端项目的一些安全风险,大概有190多…

产品研发管理 : 构建世界一流的产品研发管理体系

针对大部分客户分不清R&D 中R( 技术开发) 和D( 产品开发) 的区别,面临着研发周期长,需求不清晰,公司越做越大,却越来越不赚钱,越来越缺少核心竞争能力,研发人员越来越多,越来越难管理等问题。中国的大部分技…

iOS 知识点 - 多线程总结(GCD/Operation/Swift Concurrency/线程安全/线程通信)

前景回顾 简单回顾四个概念:进程 vs 线程进程:是操作系统资源分配的最小单位每个 App 通常就是一个进程,进程之间相互隔离,拥有各自的虚拟内存空间、文件描述符、沙盒目录。线程:是 CPU 任务调度的最小单位每个进…

前端实现页面截图及截图内容包含跨域图片时的处理

项目中遇到需要实现指定位置的截图,采取使用依赖 html2canvas 实现。 参考:https://html2canvas.hertzen.com/ 一、实现步骤: 1、下载依赖或者使用官方js文件链接,本文使用的js链接; 2、代码 style .screen-box {…

2025.12.8

今天练习了前后端的连接一起的增删改查

(最新)2025实测!这11款免费降AI率工具,哪款能救你论文?

(最新)2025实测!这11款免费降AI率工具,哪款能救你论文?一篇AI率高达92%的论文摘要,经过专业工具处理后竟能降至个位数,而某些免费工具却可能把它改得“面目全非”。选择正确的降AI工具,关乎你的论文命运。 凌晨…

LLM应用剖析: 小红书AI图文生成器-红墨

本文介绍了小红书的一键图文生成平台,并提供了系统的基本执行流程及原理。同时分享了本人基于本地部署后,生成的图文效果,眼过千遍不如手过一遍,实践方能出真知。1. 背景花了近一周时间,深入研究了Github近几天比…

openSIS 8.0 SQL注入漏洞技术分析与利用

本文详细分析了openSIS社区版8.0中存在的SQL注入漏洞(CVE-2021-40617),提供了完整的漏洞利用证明和复现步骤,涉及通过ForgotPassUserName.php参数注入的具体攻击向量。漏洞标题: openSIS Community Edition 8.0 - …

【把Linux“聊”明白】进程的概念与状态 - 详解

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

17.Mybatis之代理对象的执行

1.调用 Mapper 方法时,所有请求都会转发到 MapperProxy.invoke(),这是整个流程的入口: public class MapperProxy<T> implements InvocationHandler, Serializable {private final SqlSession sqlSession;pri…

哥大与某机构共建AI研究中心,五年投资500万美元

文章宣布了某机构与哥伦比亚大学工程学院合作,在纽约创立人工智能技术中心。该中心将获得500万美元的五年期资助,用于支持博士生奖学金、跨学科研究项目以及公开研讨会,旨在推动人工智能技术的前沿创新与应用普及。…

中国电子学会全国机器人技术等级考试(一级)2019年12月 - 详解

中国电子学会全国机器人技术等级考试(一级)2019年12月 - 详解pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Co…

道1:“知识型英语”和“本能型英语”都要学

两种记忆系统: ……陈述性记忆:事实and概念,存储关于……的知识 ……程序性记忆:技能and习惯,存储如何做的知识 两种英语(都要学): ……知识型英语:知识记忆模式,多静态输入。核心策略:理解加记忆、语法当公…

IDEA源码阅读神器-Diagram专业的工具

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

读书笔记 XILINX ug1137-Zynq UltraScale+ MPSoC Software Developer Guide 软件开发者指南 Chapter7

读书笔记 XILINX ug1137-Zynq UltraScale+ MPSoC Software Developer Guide 软件开发者指南 Chapter7目录前言Chapter 7: System Boot and Configuration 系统引导和配置7.1 Boot Process Overview 引导过程概述7.2 Bo…

2025年苗木批发基地供应商口碑榜:前十强深度解析,丝棉木/金森女贞/青叶复叶槭/红叶李/国槐/白蜡/无刺枸骨球苗木批发基地供应商排行榜单

随着城乡绿化建设标准提升与生态修复项目持续推进,苗木产业作为基础支撑环节,其供应商的综合实力与市场口碑愈发受到行业关注。一个可靠的苗木批发基地,不仅需要具备丰富的产品矩阵,更需在种植规范化、品质稳定性及…

2025 年优质服装批发市场推荐:精准适配需求,解锁高效采批新体验

中国服装协会《2024-2025 中国服装行业发展报告》显示,服装采购商年均采批频次提升 23%,但货源同质化、物流低效、线上线下断层等问题仍制约采批效率。红遍天旗下三大专业市场 ——apM 时代国际、红遍天 CENTRE、Ava…

MySQL 性能实测:Docker 容器 vs 裸机部署,差距到底有多大?

本文通过多组对照实验,深入测试 MySQL 在 Docker 容器和裸机环境下的性能差异,揭示影响性能的真正因素。测试背景 网上关于 "Docker 部署数据库会有性能损耗" 的说法众说纷纭。为了搞清楚真相,我在阿里云…