BERT为何无法彻底干掉BM25??

13422af51972ab65e8901ccd4818322b.png

文 | QvQ

近些年来,相比传统检索模型,大规模预训练式transformers结构的引入在各类任务上都有显著的提升。而这种提升在不同的数据集上有着特殊的模型设置,而当前依旧无法充分理解这些模型为什么以及如何可以更好的工作。

古人云:知己知彼,方能百战不殆。而现在的NN模型尚不能做到知己,又怎么进行下一步的升级迭代呢?今天让我们来看一下信息检索任务上,基于Bert的交叉编码器相比传统的BM25排序算法的异同有哪些呢?

论文题目
How Different are Pre-trained Transformers for Text Ranking?

论文链接:
https://arxiv.org/abs/2204.07233

d1e066ed2d8a45d99116e78f378f3129.png热身一下22a77d2b9c1ba56f814cae888d298d63.png

与传统的基于词的方法(如BM25或Query-Likelihood)相比,神经信息检索最近经历了令人印象深刻的性能提升。

由于诸如BERT这类模型具有大量参数,所以它能处理具有长范围依赖和复杂的句子结构。

当将BERT应用于排序时,它可以在query和doc之间构建深度交互,从而允许揭示复杂的关联模式,而不仅仅是简单的term匹配。

到目前为止,BERT交叉编码器所取得的巨大性能增益并没有被很好地解释。

我们对BERT模型到底是基于何种特征来用于计算句子相关性的匹配原则以及使用该模型的排序结果与BM25等传统稀疏排序算法的关系知之甚少。

BERT通过query和doc之间的术语交互直接捕获相关性信号,本文对BERT的交叉编码器(Cross-Encode,下文简称CE)与BM25的排序算法有何联系做一些研究。

首先提出以下几个问题:

RQ1: CE和BM25到底有和不同?
RQ1.2: CE是否对BM25检索到的相同结果进行了更好的排序?
RQ1.3: CE能更好地召回被BM25遗漏的结果吗?

其次,分别量化精确匹配软匹配对整体效果的贡献,因为它们构成了传统稀疏检索和神经检索匹配范式之间最直接的对比。更具体地说,需要明确以下问题:

RQ2: CE是否能体现term完全匹配?
RQ3: CE能找到“不可能相关”的结果吗?

9c804157243891bb5ae05dbcd64b09bd.png实验ea99a97a3537d7501fd914b7e6e8f37a.png

1.实验配置

用BERT的CE对包含n个term的query和包含m个term的doc同时编码:

402 Payment Required

其中[CLS]会送入二进制分类器层以将文章分类为相关或非相关,然后将相关性概率用作相关性得分,重新排序的文章。

2ecaec907d6365c88add00781358ee9f.png

在MS-MARCO数据集上实验了TREC 2020 Deep Learning Track的文章召回任务,实验结果如上表。可以看到CE在所有指标上都优于BM25

2.实验结论

RQ1: CE和BM25的排序结果有何不同?

为了探寻CE对最终排序结果的影响,作者记录了每个doc最初在BM25排序算法中的位置。并将排序分成四个不同范围:1-10, 11-100, 101-500, 501-1000(下文会用10, 100, 500和1000表示)。

f29217d0f24c8bd487c78226cbf37173.png

上图反应了CE和BM25排序结果的差异性。每个单元格表示同一范围内来分别来自CE和BM25文档的比例,举个栗子:(a)图第一行表示CE重新排名的第1-10位的文件来自最初BM25排名中第1-10位的33%,第11-100位的41%,第101-500位的19%和第501-1000位的6.1%。可以发现:

(1)CE和BM25在排序在top结果中有着很大的差异 (33% CE@10),即仅有33%的结果相同;而在低分段(60% CE@1000)则相反。
(2)BM25排名靠前的doc很少被CE排序靠后,而被BM25排序较后的doc则有20%的概率排在CE的top10里。这表明精确匹配是一个重要的基础排序策略,而CE的软匹配能力是BM25所不具备的

RQ1.2: CE是否对BM25检索到的相同结果进行了更好的排序?

为了回答这个问题,作者将根据NIST 2020的判定指标将候选结果分为【高度相关】、【相关】和【不相关】三类文档。

1e00a3f3e384422bc01202db7e2ffef3.png
  • 对于【高度相关】的文档,排序结果在CE@10中表现出较低的一致性(40%),这意味着两种方法对于各自头部文档相关性的定义有着很大的不同

  • 对于【相关】的文档,可以观察到CE和BM25在头部排序范围内有46%的重叠部分,另外占比较大的部分(32%)来自BM25@100。即对于CE的头部相关文档而言,仍然有22%排在BM25算法的100位以后,这说明BM25还是明显低估了许多文档的相关性。

而这也并不意味着BM25算法被完爆,对于【高度相关】文档而言,同样有17%(E@100: 12% + CE@500: 5%)的文档,被CE排在较靠后的位置,而这些文档位于BM25排序算法的top10,该结论在【相关】文档的统计中也有体现。

令人意外的是,对于部分【高度相关】文档,CE和BM25都将其排序较后(@1000),且重合度竟达到的完美的100%,说明这两类算法都不具备对此类文档的识别能力。

bc3e9b356ef5d63d0a172d960cd0f67f.png

那么,对于那些【不相关】而又排序靠前的文档,两种算法又表现如何呢?

可以看到了CE@10里,大量【不相关】文档来自BM25排序中较后的位置(47% BM25@100, 23% BM25@500, 5% BM@1000),这表明CE高估了许多被BM25算法正确地认为【不相关】文档的相关性。(好家伙,你堂堂1亿参数的BERT也有看走眼的时候?)

RQ1.3: CE能更好地召回被BM25遗漏的结果吗?

重点关注CE的前10个排序结果可以更准确的掌握对于头部结果的召回情况。

如(b)图中所示:对于CE召回的前十条【高度相关】结果,其中有将近一半(42%)只能排在BM25算法的10-100位,13%的【高度相关】只能排在BM25算法的100-500位,甚至还有5%的【高度相关】排在BM25算法的500-1000位。

相同的结论同样可以在【相关】结果集中体现。

这证明了CE的卓越能力,它可以召回BM25非常不看好而实际却是高度相关的文档。这也正是神经模型相比传统稀疏匹配算法的真正潜力所在。

RQ2: CE是否能体现term完全匹配?

文档中查询词的存在与否是排序相关性的最强信号之一,作者通过从doc中剥离出精确匹配所需要的term,从而量化term完全匹配对效果的贡献。

具体做法是将doc中所有的非query term都改用[MASK]标记替换,使模型仅保留原始文档的框架,从而迫使CE仅依赖query和doc之间的精准term匹配:

58a536eb80feb3be10c56f9d7fa66209.png

可以看到表中第一行【Only Q】的指标,其实还是很出人意料的,该排序指标甚至全面低于BM25算法,这也说明了CE其实并没有对精确term匹配有一个充分的利用。(笔者感觉这里也不能完全说明这个结论,因为作者并没有对原模型重新fine-tune,过多的[MASK]token可能会影响模型的判断)

RQ3: CE能找到“不可能相关”的结果吗?

虽然CE可以同时利用精确term匹配和语义匹配,但与传统term级匹配算法相比,其最大的优势在于通过考虑上下文信息克服对term匹配的依赖,即语义泛化能力。

不是通过term精确匹配的方法我们称之为“软匹配”,神经网络模型正是基于这种软匹配可以召回传统方法无法召回的doc。

同样为了剥离和量化软匹配的效果,通过mask掉doc中所有与query相同的term,仅保留上下文环境,观察效果的变化。

如上标中的【Drop Q】所示,CE可以做到在doc完全没有与query有重叠term的情况下也能对文档进行较为合理的评分,排序结果甚至要优于BM25算法!!!

这即在意料之外,其实也在情理之中。毕竟CE有着其自带的MLM任务,如果可以,它甚至可以预测出被mask的term(那么你删不删对它有什么影响呢?)。

当然仅依靠上下文就能做到比传统的BM25算法要优秀,这一点也算是意料之外的。这也证明了CE做到了“语义理解”,展现了其强大的泛化潜力。

8ba506623d58c8e8b02c3b6d009772c3.png一些思考6d69b16325c3bdaea013c489a56b6180.png

根据以上实验对比,可以得到一些比较有意思的结论:

(1)对于两种算法来讲,排名靠前的doc的差异性要更大且越是【高度相关】的文档这种差异性越大,而排名靠后的doc则具有更强的一致性。(真是幸福各有千秋,而不幸如出一辙= =)

(2)对于实验结果中DCG的涨点,可以看出CE的主要提升是召回了被BM25低估的doc(即召回的显著提升)。同时也引入了一些误差,即CE高估了一些原本被BM25排序正确的低相关性doc。

(3)一些被CE大大低估的【高度相关】的doc,反而BM25的排序更加准确。但是很遗憾,作者并没有给出具体的case示例,如果想进一步提高NN模型的性能,其实是应该更多的关注这一批case的。

最后,在检索任务中,现在仍没有实验表明NN模型可以完全替代传统基于term的稀疏匹配算法。不管是召回还是排序阶段,这两者依旧是相辅相成的关系。

而真正需要思考的是如何balance这两者的排序结果,以及为什么百亿参数的模型在部分case上依旧不如传统term匹配算法。

搜索之路,道阻且长啊~

a984bc2d8046dfde4cf155eb1878d075.png萌屋作者:乐乐QvQ

硕士毕业于中国科学院大学,前ACM校队队长,区域赛金牌。竞赛混子,Kaggle两金一银,国内外各大NLP、大数据竞赛Top10。校招拿下国内外数十家大厂offer,超过半数的SSP。目前在百度大搜担任搜索算法工程师。知乎ID:QvQ

作品推荐:

1.13个offer,8家SSP,谈谈我的秋招经验

2.2020深度文本匹配最新进展:精度、速度我都要!

3.7款优秀Vim插件帮你打造完美IDE

4.他与她,一个两年前的故事

5.Bing与DuckDuckGo搜索结果惊人一致?Google展现强势差异

ee22f0aaf375f5c09c7d70b824051434.png后台回复关键词【入群

加入卖萌屋NLP、CV、搜广推与求职讨论群

后台回复关键词【顶会

获取ACL、CIKM等各大顶会论文集!

084ea6eac1a790ed60d10336b8f636d5.gif

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/477217.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Spring Boot中使用MongoDB数据库

前段时间分享了关于Spring Boot中使用Redis的文章,除了Redis之后,我们在互联网产品中还经常会用到另外一款著名的NoSQL数据库MongoDB。 下面就来简单介绍一下MongoDB,并且通过一个例子来介绍Spring Boot中对MongoDB访问的配置和使用。 Mong…

程序员面试金典 - 面试题 01.09. 字符串轮转

1. 题目 字符串轮转。给定两个字符串s1和s2,请编写代码检查s2是否为s1旋转而成(比如,waterbottle是erbottlewat旋转后的字符串)。 示例1:输入:s1 "waterbottle", s2 "erbottlewat"输出&#x…

谷歌HuggingFace | 零样本能力最强的语言模型结构

从 GPT3 到 Prompt,越来越多人发现大模型在零样本学习(zero-shot)的设定下有非常好的表现。这都让大家对 AGI 的到来越来越期待。但有一件事让人非常疑惑:19 年 T5 通过“调参”发现,设计预训练模型时,Enco…

Spring Boot中使用Redis数据库

Spring Boot中除了对常用的关系型数据库提供了优秀的自动化支持之外,对于很多NoSQL数据库一样提供了自动化配置的支持,包括:Redis, MongoDB, Elasticsearch, Solr和Cassandra。 使用Redis Redis是一个开源的使用ANSI C语言编写、支持网络、…

程序员面试金典 - 面试题 02.01. 移除重复节点(哈希set)

1. 题目 编写代码,移除未排序链表中的重复节点。保留最开始出现的节点。 示例1:输入:[1, 2, 3, 3, 2, 1]输出:[1, 2, 3]示例2:输入:[1, 1, 1, 1, 2]输出:[1, 2]提示: 链表长度在[0, 20000]范围内。 链表元…

从 Google AI 离职了,这里让我爱不起来

文 | 天于刀刀大家都清楚,谷歌是一所著名的能让无数打工人「爱上工作」的良心企业。轻松自由的办公环境,超多在职福利和活动,更不必说业界第一的金字招牌带来的丰厚报酬,是吾辈躺平咸鱼的终极 Dream Offer 。而现在竟然有人主动提…

Spring Boot日志管理

Spring Boot在所有内部日志中使用Commons Logging,但是默认配置也提供了对常用日志的支持,如:Java Util Logging,Log4J, Log4J2和Logback。每种Logger都可以通过配置使用控制台或者文件输出日志内容。 格式化日志 默认的日志输出…

感知机(Perceptron)

文章目录1. 感知机模型2. 感知机学习策略3. 感知机学习算法3.1 原始形式3.2 算法收敛性3.3 对偶形式4. 基于感知机Perceptron的鸢尾花分类实践感知机(perceptron)是 二类分类的线性分类模型输入:实例的特征向量输出:实例的类别&am…

苹果5G芯片研发失败,冲上热搜

文 | 科小编源 | 科技每日推送多年来,iPhone的信号问题,一直被大家诟病。苹果也一直尝试自研5G芯片来解决,但最新消息显示,苹果再次失败了。6月28日,有“地表最强苹果剧透师”之称的郭明錤,在推特上爆料&am…

Spring Boot多数据源配置与使用

之前在介绍使用JdbcTemplate和Spring-data-jpa时,都使用了单数据源。在单数据源的情况下,Spring Boot的配置非常简单,只需要在application.properties文件中配置连接参数即可。但是往往随着业务量发展,我们通常会进行数据库拆分或…

基于感知机Perceptron的鸢尾花分类实践

文章目录1. 感知机简介2. 编写感知机实践2.1 数据处理2.2 编写感知机类2.3 多参数组合运行3. sklearn 感知机实践4. 附完整代码本文将使用感知机模型,对鸢尾花进行分类,并调整参数,对比分类效率。1. 感知机简介 感知机(perceptro…

大火的扩散模型终于杀到了NLP领域

从2020年的初出茅庐,到2021年的日趋火热,再到2022年的大放异彩,扩散模型(Diffusion Models) 正在人工智能学术界和工业界获取越来越多的关注。如果还不是特别了解扩散模型的朋友,可以阅读卖萌屋的几篇历史推文《扩散模型在图像生成…

Spring Boot中使用Spring-data-jpa让数据访问更简单、更优雅

在上一篇Spring中使用JdbcTemplate访问数据库 中介绍了一种基本的数据访问方式,结合构建RESTful API和使用Thymeleaf模板引擎渲染Web视图的内容就已经可以完成App服务端和Web站点的开发任务了。 然而,在实际开发过程中,对数据库的操作无非就…

AI终于攻陷了数学领域!高数考试超过普通博士??

文 | 梦晨 丰色 发自 凹非寺源 | 量子位高数考不好,不知道是多少人的噩梦。如果说你高数考得还不如AI好,是不是就更难以接受了?没错,来自OpenAI的Codex已经在MIT的7门高数课程题目中正确率达到81.1%,妥妥的MIT本科生水…

十年内就能实现通用人工智能?先把组合泛化研究明白吧!

文 | Albert Yang编 | 白鹡鸰"乌鸦为什么像写字台?"因为它们都能produce a few notes (鸟叫/笔记),因为乌鸦和写字台都是思想与记忆的象征(北欧神话),又或者因为,这本身就…

LeetCode 1366. 通过投票对团队排名(自定义排序)

1. 题目 现在有一个特殊的排名系统,依据参赛团队在投票人心中的次序进行排名,每个投票者都需要按从高到低的顺序对参与排名的所有团队进行排位。 排名规则如下: 参赛团队的排名次序依照其所获「排位第一」的票的多少决定。如果存在多个团队…

Spring Boot中使用JdbcTemplate访问数据库

之前介绍了很多Web层的例子,包括构建RESTful API、使用Thymeleaf模板引擎渲染Web视图,但是这些内容还不足以构建一个动态的应用。通常我们做App也好,做Web应用也好,都需要内容,而内容通常存储于各种类型的数据库&#…

LeetCode 1367. 二叉树中的列表(双重递归)

1. 题目 给你一棵以 root 为根的二叉树和一个 head 为第一个节点的链表。 如果在二叉树中,存在一条一直向下的路径,且每个点的数值恰好一一对应以 head 为首的链表中每个节点的值,那么请你返回 True ,否则返回 False 。 一直向…

Spring Boot构建RESTful API与单元测试

首先,回顾并详细说明一下在快速入门中使用的Controller、RestController、RequestMapping注解。如果您对Spring MVC不熟悉并且还没有尝试过快速入门案例,建议先看一下快速入门的内容。 Controller:修饰class,用来创建处理http请…

推荐系统用户反馈延迟新解法!阿里提出CVR无偏估计算法

文 | Shona在广告、电商场景中,流式样本通常只会在一个较短的窗口采样用户的行为,但用户从点击到转化的时间窗口可能很长,比如逛淘宝时,点击一件商品后可能在其他平台对比很久后才会下单,这导致在流式样本采样的时间窗…