选择性检索增强的仓库级代码补全
大型代码模型在基于上下文完成任意程序函数代码方面表现出色,但在处理新的大型软件开发项目时却遇到困难,因为正确的代码补全可能依赖于代码仓库中其他位置定义的API调用或函数。
检索增强生成通过从仓库中获取相关上下文来解决这个问题,丰富了模型的理解并改进了其输出。但执行检索需要时间并会减慢生成速度:这总是最佳选择吗?
在今年国际机器学习会议上发表的一篇论文中,我们研究了这个问题并发现,实际上80%的情况下检索并不会提高代码生成的质量。
方法概述
为了解决这种效率低下的问题,我们微调了一个大型语言模型来确定检索是否可能有所帮助,并根据答案发出两个特殊标记之一。
对于微调,我们使用了一个通过从开源许可证仓库中采样代码、随机掩码代码行并从仓库其他地方检索相关代码构建的数据集。然后我们比较了大型语言模型在有和没有额外上下文情况下对掩码代码的重建效果。这些示例根据检索是否改进了生成而被标记。
在实验中,我们发现在代码补全任务上,在我们数据集上微调的代码大型语言模型甚至比总是执行检索的模型表现更好——但由于选择性检索,推理速度提高了70%。
技术实现
创建我们数据集的所有步骤——采样和掩码代码、检索相关代码、以及有和没有检索上下文的代码生成——都可以自动化,这使得我们的方法具有自监督性:不需要人工标注,并且可以扩展到任意大的数据集规模。
我们试验了多种从仓库检索上下文信息的方法,包括使用基于Transformer的语义嵌入来匹配代码序列的UniXCoder,以及使用n-gram数据、语法树和代码流语义的CodeBLEU。然而,这两种方法都没有比更高效的Jaccard相似度表现得更好,Jaccard相似度是两个符号序列交集与并集的比率。因此在大多数实验中,我们使用Jaccard相似度进行检索。
对于模型微调,我们使用了"填充中间"机制,其中掩码代码从代码序列中切除,前面和后面的部分用特殊标记标识。训练目标包括在字符串末尾附加掩码代码的输入字符串,再次用特殊标记标识。这允许模型利用掩码代码之前和之后的上下文信息;已被证明比训练模型在前后部分之间插入生成代码产生更好的结果。
在微调期间,我们有两个训练目标:正确重建缺失代码和准确评估检索信息何时有助于重建。
性能评估
与现有模型相比,我们的方法在代码补全任务上提高了准确性,并在各种基准测试中减少了推理延迟。
在现实的"在线服务"设置中,我们展示了该方法减少延迟的能力。假设工作仓库已被索引,给定包含当前文件的代码补全请求,系统同时启动三个过程:
- 使用该方法进行检索决策
- 使用代码大型语言模型生成没有跨文件上下文的代码补全
- 检索跨文件上下文并使用它生成代码补全
在一系列固定选择阈值中,选择性检索能够提高准确性和推理速度。这种性能在各种阈值设置下也保持不变。
更有趣的是,该方法能够作为即插即用的策略模型,减少各种强大代码大型语言模型作为检索增强生成中生成模型的推理延迟。
通过超过85%的检索决策准确率,该方法确保上下文检索仅在增加价值时使用。
进一步的分析表明,所提出的策略提高了该方法对检索的鲁棒性,减少了有害检索,增加了通过检索改进的实例。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)
公众号二维码

公众号二维码
