3 多语言数据集生成(Multilingual Dataset Generation)方法
一、核心目标
构建可扩展、高效的自动化流程,生成高质量多语言事实核查数据集,支持英语、西班牙语、德语及低资源语言,包含 “支持(Supports)”“反驳(Refutes)”“信息不足(Not-info)” 三类声明 - 来源对,最终产出经 5 轮迭代优化的合成数据集。
二、具体流程(4 个核心组件 + 迭代优化)
1. 知识句子创建(Knowledge Sentences Creation)- 数据来源准备
(1)数据源选择
-
采用 Wikipedia 作为事实知识来源,使用对应语言的特定版本 dump 文件:
-
西班牙语、德语:2024 年 4 月版(20240401)
-
英语:2024 年 8 月版(20240820)
-
-
工具:通过
wikitextparser库解析 Wikipedia 数据
(2)句子提取规则
为每个 Wikipedia 条目生成 8 条知识句子,提升数据多样性:
-
类型 1:从页面中随机抽取 5 条句子
-
类型 2:从摘要部分抽取 3 条句子(首句 + 1 条随机句 + 尾句)
(3)刻意保留的局限性
自动检索的来源可能存在不完整、格式错误或上下文不足的问题,此举旨在模拟真实场景中声明常有的模糊性与不完整性。
2. 声明生成(Claim Generation)- 核心内容生成
(1)模型选择
采用Mistral-7B-Instruct-v0.3,核心依据是其在研究阶段具备较强的多语言处理能力。
(2)声明类别与生成要求
-
目标类别:生成 3 类声明,分别对应标签
supports(支持)、refutes(反驳)、not-info(信息不足) -
特殊要求:为增强模型对对比案例的敏感度,指令模型在声明中融入比较级 / 最高级形容词(如 larger、more、highest 等),助力模型学习来源 - 声明推理逻辑
-
数据规模:随机选取 30,000 个 Wikipedia 条目(对应 240,000 条知识句子)作为生成基础
(3)提示词(Prompt)设计
-
核心约束:声明需简洁(<30 词)、客观、自包含(不提及原始来源句子)、仅基于提供的知识句子生成,不添加额外信息或主观判断
-
分类提示词差异:
-
supports:生成与来源句子事实一致的声明(示例见表 3) -
refutes:生成与来源句子事实矛盾的伪造声明(示例见附录 A.2 表 13) -
not-info:生成无法通过来源句子验证的声明(示例见附录 A.2 表 14)
-
3. 声明过滤(Claim Filtering)- 质量筛选
采用 “LLM 评估 + MNLI 验证” 双重过滤机制,最小化人工干预,筛选高质量声明:
(1)LLM 过滤(同声明生成模型 Mistral-7B)
-
评估维度(1-5 分制):
-
自包含性(self-contained):声明是否无需额外上下文即可理解
-
支持度(support):声明与来源句子的匹配程度
-
客观性(objective):声明是否无主观偏见
-
整体质量(quality):综合评估声明可用性
-
-
类别分类:将声明分为 C0(与来源矛盾)、C1(与来源一致)、C2(无法通过来源验证)
-
过滤规则:仅保留 “类别与目标标签一致”(C0→refutes、C1→supports、C2→not-info)且 “质量 + 自包含性得分>3” 的声明
(2)MNLI 过滤(跨语言自然语言推理验证)
-
模型选择:
mDeBERTav3-base-xnli-multilingual-nli-2mil7(经 XNLI 和 multilingual-NLI-26lang 数据集微调) -
任务转化:将知识句子作为 “前提(premise)”,生成的声明作为 “假设(hypothesis)”
-
类别映射:
-
entailment(蕴含)→ supports
-
contradiction(矛盾)→ refutes
-
neutral(中立)→ not-info
-
-
过滤规则:剔除模型预测类别与目标标签不一致的声明,确保语义一致性
4. 声明评估(Claim Evaluation)- 质量校验
(1)自动评估
-
核心指标:通过 BLEU-4、ROUGE-L、METEOR 三种指标,衡量声明与来源句子的词汇相似度,验证语义对齐程度
-
输出:生成两类数据集
-
无 MNLI 过滤(no_mnli_filtering):380 万条实例(仅经 LLM 过滤)
-
有 MNLI 过滤(mnli_filtering):220 万条实例(经 LLM+MNLI 双重过滤,即最终核心数据集 MultiSynFact)
-
(2)人工评估
-
抽样规则:对每个类别随机抽取 10 条声明,由 2 名作者进行打分
-
评估维度(1-5 分制):
-
整体质量:声明的连贯性与信息量
-
语法正确性:语言表达无语法错误
-
语义关系:声明与来源句子的逻辑、事实关联准确性
-
标签准确性:声明类别标签是否正确
-
-
迭代优化:若某轮生成的声明在所有维度得分未达 4 分以上,需调整提示词并重新执行生成 - 过滤流程,直至满足质量要求
三、最终数据集输出
| 数据集类型 | 实例数量 | 核心特征 |
|---|---|---|
| 无 MNLI 过滤(no_mnli_filtering) | 3.8M | 仅经 LLM 过滤,规模大 |
| 有 MNLI 过滤(mnli_filtering) | 2.2M | 经双重过滤,质量更高,含英、西、德三语 |
四、关键特性
-
可扩展性:流程不依赖特定语言,可适配所有 LLM 和 MNLI 模型支持的语言,尤其适用于低资源语言
-
低耗高效:大幅减少人工标注成本与时间,通过自动化流程实现大规模数据集生成
-
质量可控:通过 “生成 - 过滤 - 评估” 的迭代机制(5 轮优化),确保声明的客观性、自包含性与语义对齐性