深夜的创业孵化器里,你盯着屏幕上的医疗AI项目,手里攥着仅有的97条标注数据——这是某三甲医院心内科攒了三年的罕见病例。投资人刚刚发来最后通牒:“下周demo要是还分不清心肌炎和感冒,就撤资!” 这时你需要掌握的不是更多数据,而是让每个样本都变成会复制的孙悟空的毫毛。
一、为什么大模型需要小数据?
某AI法律咨询平台的血泪教训:他们用5万条通用案例训练出的模型,在遇到"直播打赏遗产纠纷"时,竟然建议当事人"给主播托梦解决"。问题核心在于,专业领域的知识密度是普通场景的100倍,而数据收集成本却是1000倍。
少样本学习的三大反常识:
- 10个精准样本 > 1000个模糊样本
- 数据越少,模板设计越要"心机"
- 案例排列顺序比内容更重要
看个直观对比:
# 普通模板(大海捞针式)
basic_tem