https://arxiv.org/abs/2406.04271
1. 引言
-  介绍大型语言模型(LLMs)在推理任务中的局限性。 
-  概述现有推理方法的分类和局限性:单次查询推理和多查询推理。 
-  提出Buffer of Thoughts (BoT) 框架,旨在提高LLMs的推理准确性、效率和鲁棒性。 
 2. 相关工作和讨论
-  回顾检索增强语言模型、基于提示的LLMs推理和类比推理的相关研究。 
-  讨论BoT与现有方法的异同,并强调其优势。 
 3. Buffer of Thoughts
-  介绍BoT的整体框架,包括问题蒸馏器、元缓冲区、实例化推理和缓冲区管理器。 
-  详细说明问题蒸馏器的功能和工作原理。 
-  介绍元缓冲区中存储的思想模板,并解释模板检索和实例化推理的过程。 
-  说明缓冲区管理器如何从解决方案中提炼思想模板,并动态更新元缓冲区。 
 4. 实验
-  介绍实验数据集和任务,包括24点游戏、BIG-Bench Hard任务、BIG-Bench推理任务、Python编程谜题、多语言小学数学和莎士比亚十四行诗创作。 
-  实现和基准:使用GPT-4作为基线模型,并与标准提示、单查询方法和多查询方法进行比较。 
-  结果分析:BoT在推理准确性、效率和鲁棒性方面均优于现有方法。 
 5. 模型分析
-  分析思想模板的分布情况,说明BoT能够有效地发现不同任务的思想模板。 
-  分析BoT的时间成本分布,证明其推理框架的效率。 
-  探讨模型规模与性能之间的权衡,说明BoT能够提升小模型的能力。 
 6. 消融研究
-  分析问题蒸馏器、元缓冲区和缓冲区管理器对BoT性能的影响。 
 7. 讨论
-  讨论BoT的局限性和未来发展方向,例如整合外部资源、优化思想模板提炼等。 
 8. 结论
-  总结BoT的主要贡献和优势,并展望未来研究方向和应用前景。 
-  1. 大型语言模型(LLMs)推理任务的局限性: 
-  LLMs 在推理任务中存在幻觉现象,难以处理复杂推理问题。 
-  现有的推理方法(单次查询和多查询)存在局限性,例如缺乏泛化能力、计算复杂度高、依赖手动设计等。 
 2. BoT 框架:
-  问题蒸馏器: 从输入任务中提取关键信息和约束,并将其转化为高层次的抽象表示。 
-  元缓冲区: 存储一系列通用的高层次思想模板,用于解决各种类型的推理问题。 
-  实例化推理: 根据提取的信息和检索到的思想模板,自适应地实例化推理结构进行高效推理。 
-  缓冲区管理器: 从解决方案中提炼思想模板,并动态更新元缓冲区,提高推理能力。 
 3. BoT 的优势:
-  准确性提升: 通过共享的思想模板,可以自适应地实例化高层次思想,提高推理准确性。 
-  推理效率: 直接利用历史推理结构进行推理,无需复杂的多次查询过程,提高推理效率。 
-  模型鲁棒性: 模拟人类思维过程,使 LLMs 能够一致地解决类似问题,增强模型鲁棒性。 
 4. BoT 的应用:
-  BoT 在各种推理任务中表现出色,例如数学推理、常识推理、编程推理等。 
-  BoT 能够提升小模型的能力,使其达到或超越大型模型的效果。 
-  BoT 具有泛化能力强、推理效率高、模型鲁棒性强的优势。 
 5. BoT 的未来发展方向:
-  整合外部资源,构建开放域系统。 
-  优化思想模板提炼,提高模板质量,解决更复杂的推理问题。