一、通用问答基准数据集
-
HotpotQA
- 特点:包含11万+多跳问答对
- 最佳用途:测试复杂推理能力
- 数据示例:
{"question": "Were Scott Derrickson and Ed Wood of the same nationality?","answer": "Yes, both are American" }
-
MS MARCO
- 特点:百万级真实用户查询+Bing搜索结果
- 下载方式:
wget https://msmarco.blob.core.windows.net/msmarcoranking/collectionandqueries.tar.gz
-
Natural Questions
- 亮点:Google搜索真实问题+人工标注答案
- 特别适合:开放域问答系统测试
二、领域专用数据集
-
COVID-QA
- 医疗领域:新冠相关问答对
- 包含:2,000+医学专家验证的QA对
-
LegalBench
- 法律领域:8种法律任务测试集
- 文件类型:
case_law/ statutory_interpretation/ contract_analysis/
-
FinQA
- 金融领域:表格+文本混合问答
- 典型问题:
“根据2023年Q2财报,公司净利润增长率是多少?”
三、压力测试数据集
-
DBPedia-Entity
- 规模:400万+实体查询
- 测试场景:
- 大规模知识库检索效率
- 实体链接准确性
-
TriviaQA
- 特点:65万+琐事问题
- 挑战性:需要广泛常识推理
四、多语言测试集
-
XQuAD
- 覆盖:11种语言(含中文)
- 使用建议:
from datasets import load_dataset dataset = load_dataset("xquad", "xquad.zh")
-
MLQA
- 亮点:平行语料跨语言评估
- 语言对:EN-ES/DE/AR等7种
五、对抗性测试集
-
AdversarialQA
- 设计目的:专门挑战QA系统弱点
- 三种变体:
- DBERT(基于BERT的对抗样本)
- DRO(动态对抗优化)
- BiDAF(上下文误导)
-
StrategyQA
- 特点:需要隐含推理的问题
- 示例:
“用微波炉加热金属餐具会导致火灾吗?”
(需推理:金属反射微波→火花→火灾风险)
六、企业级测试工具包
-
RAGAS
- 专为RAG设计的评估库
- 关键指标:
from ragas import evaluate metrics = ["faithfulness", # 事实忠实度"answer_relevance", # 答案相关性"context_recall" # 上下文召回 ]
-
TruLe