AC算法在美团上单系统的应用

1.背景

在美团,为了保证单子质量,需要对上单系统创建的每一个产品进行审核。为了提高效率,审核人员积累提炼出了一套关键词库,先基于该词库进行自动审核过滤,对于不包括这些关键词的产品信息不再需要进行人工审核。因此,如何在页面中快速的检测是否包含了这些关键词就变得非常重要。

对于上述问题我们描述为如下的形式:

  • 给定关键词集合P={p1,p2,……,pk},在目标串T[1…m]中找到出现了哪些关键词。

很容易想到的方法就是针对每个单词去匹配一遍,最后总结出都哪些单词匹配成功。

考虑KMP算法,单个关键词匹配的时间复杂度是O(|pk|+m),所以,所有关键词都匹配一遍的时间复杂度为O(|p1|+m+|p2|+m+…+|pk|+m)。令n=|p1|+…+|pk|,上式化简为O(n+km),因此,当关键词的数量变得非常多时,这种算法就变得无法忍受了。

Alfred V.Aho和Margaret J.Corasick在1974年提出了一个经典的多模式匹配算法-AC算法,这个算法可以保证对于给定的长度为n的文本,和模式集合P{p1,p2,…pm},在O(n)的时间复杂度内找到文本中的所有目标模式,而与模式集合的规模m无关。

2.AC算法详解

AC算法的具体实现方法就是创建一棵前缀树,根据被查找的目标字符串,从树的根节点开始往叶子节点逐字符匹配。在这个过程中,如果发生失配,要根据失配跳转点进行跳转,如果找到匹配的模式串则进行打印输出。AC算法在扫描文本时完全不需要回溯,如果只考虑匹配的过程,该算法的时间复杂度为O(n),也就是只跟待匹配文本的长度相关。

AC算法的实现可以由如下三个步骤构成:

  1. 构造前缀树
  2. 设置每个节点的失配跳转并收集每个节点的所有匹配模式串
  3. 对目标字符串进行搜索匹配

其间共用到三个函数:goto,fail,output。

步骤一:构造前缀树

这里我们考虑模式集合P={“he”,”she”,”his”,”hers”}。

首先是goto函数的建立,该函数决定了对于当前状态S和条件C,如何得到下一状态S’。为了构建goto函数,我们需要建立一个状态转移图,开始,这个图只包含一个状态0,然后通过添加一条从起始状态出发的路径的方式,依次向图中输入每个关键字keyword,新的顶点和边被加入到图表中,这样就产生了一条能拼写出关键字keyword的路径。

添加第一个关键词“he”得到下图,其中从状态0到状态2的路径就拼写出了关键字“he”;

接着添加第二个关键字“she”得到下图,输出“she”和状态5相关联;

增加第三个关键字“his”得到下图,当我们增加“his”时,因为已经存在一条从状态0在输入h的条件下到达状态1的边,因此我们这里不需要另外添加一条同样的边。这个输出的“his”是和状态7相关联的;

最后我们添加“hers”得到下图,输出“hers”和状态9相关联,最后对除了h和s外的每个字符都增加一个从状态0到0的循环;

经由上面一系列添加过程,就构造了整个模式集合的状态转移图,这个图也就代表了转向函数goto。 我们利用伪代码将goto函数表示如下,同时我们在这一步骤中构造了output函数,但这个函数并不是完整的,需要在步骤二中继续完善:

beginnewstate ← 0for i ← 1 util k do enter(yi)for all a such that goto(0,a) == fail do goto(0,a) ← 0
endprocedure enter(a1a2…am):
beginstate ← 0j ← 1while goto(state, aj) ≠ fail dobeginstate ← goto(state, aj)j ← j+1endfor p ← j util m dobeginnewstate ← newstate + 1goto(state, ap) ← newstatestate ← newstateendoutput(state) ← {a1a2…am}
end

步骤二:设置每个节点的失配跳转

失效函数fail决定了当goto函数得到的下一个状态无效时,应该回退到哪一个状态。在构造fail函数时,我们首先定义状态转移图中状态S的深度为从状态0到状态S的最短路径。以我们上面构造的状态转移图为例,起始状态的深度为0,状态1和3的深度是1,状态2、6、4的深度是2,依次类推。计算失效函数的思路是这样的:首先计算深度为1 的状态的失效函数值,然后是深度为2的,以此类推,直到所有状态的失效函数值都被计算出。同时,我们规定所有深度为1的状态的fail值为0,假设所有深度小于d的状态的fail值都已经计算出,考虑每个深度为d-1的状态r,基于这些已经被计算出的深度为d-1的fail值,我们是可以得到深度为d的fail值的。

令L(Si)为从根节点到Si节点的路径上的所有边的值的序列,我们从树的根节点开始遍历计算fail值,如果L(Sj)是L(Si)的一个后缀,并且是最长后缀,那么,fail(Si) = Sj。假设当前状态为S1,现在要求fail(S1),S1的前一状态我们记为S2,而S2跳到S1的条件为C,也就是S1 = goto(S2,C),而S2的fail值是已知的,记为S3,也即S3 = fail(S2),则L(S3)是L(S2)的一个最长后缀,假设S4 = goto(S3,C)存在,那么fail(S1) = S4,如果不存在则测试S5 = goto(fail(S3),C),直到得到一个有效的状态为止。这个计算的过程是这样的:

  1. 对于所有的字符a,如果goto(r,a) = fail,那么什么也不做(当r为我们上面构造的trie树的叶子节点时,就符合这种情况)
  2. 如果goto(r,a) == s,我们记state = fail®,执行state = f(state)零次或者若干次,直到使得goto(state,a) != fail,因为goto(0,a) != fail,所以这个状态是一定存在的。
  3. 记fail(s) = goto(state,a)。

我们还是以上面构造出的状态转移图为例,计算每个节点的fail值,根据规定,fail(1) = fail(3) = 0,因为1和3是深度为1的状态。

考虑深度为2的状态2、6、4: * 计算fail(2),令state = fail(1) = 0,由于goto(0,e) = 0,所以fail(2) = 0 * 计算fail(4),令state = fail(3) = 0,由于goto(0,h) = 1,所以fail(4) = 1 * 计算fail(6),令state = fail(1) = 0,由于goto(0,i) = 0,所以fail(6) = 0

考虑深度为3的节点8、7、5: * 计算fail(8),令state = fail(2) = 0,因为goto(0,r) = 0,所以fail(8) = 0 * 计算fail(7),令state = fail(6) = 0,因为goto(0,s) = 3,所以fail(7) = 3 * 计算fail(5),令state = fail(4) = 1,因为goto(1,e) = 2,所以fail(5) = 2

最后考虑深度为4的节点9: * 计算fail(9),令state = fail(8) = 0,因为goto(0,s) = 3,所以fail(9) = 3

这样一来我们构造的fail表如下:

状态0123456789
fail值None000120303

失效函数创建的伪代码如下:

beginqueue ← emptyfor each a such that goto(0,a) = s ≠ fail dobeginqueue ← queue U {s}fail(s) ← 0endwhile queue ≠ empty dobeginlet r be the next state in queuequeue ← queue - {r}for each a such that goto(r,a) = s ≠ fail dobeginqueue ← queue U {s}state ← fail(r)while goto(state,a) = fail do state ← fail(state)fail(s) ← goto(state,a)output(s) ← output(s) U output(fail(s))endend
end

步骤三:对目标字符串进行搜索匹配

上面两个步骤都完成了之后就可以开始对目标串进行搜索了,只需对目标串从头到尾线性扫描,且没有回溯。搜索之前先记录树的当前节点node,初始时,树的当前节点node为根节点Root。从目标串的第一个字符开始,和Root的孩子节点进行匹配,如果不匹配,则目标字符串往后挪一个字符,继续在Root的孩子节点中查找匹配。如果找到匹配的孩子,则目标字符串往后挪一个字符,node变为匹配上的孩子节点。在接下来的匹配过程中,如果失配将跳转到node节点的fail值处继续进行匹配。在树上每次往孩子节点方向走一步都要检查该孩子节点的匹配模式串信息,如果有匹配的模式串信息,则应记录找到了哪些能够匹配的模式串。

整体的匹配过程如下代码所示:

beginstate ← 0for i ← 1 until n dobeginwhile goto(state,ai) = fail do state = fail(state)state ← goto(state,ai)if output(state) ≠ empty thenbeginprint output(state)endend
end

3.上单系统中的实现

在美团上单系统中,待匹配的关键词根据产品类别进行分组,不同品类之间的关键词具有重叠。如果针对每个品类生成一棵状态转移树固然可行,但是随着品类的增多,对内存的使用也会随之增高。考虑到AC算法的时间复杂度与关键词的数量无关,因此可以考虑将所有品类的关键词构造在同一棵状态转移树中,每次进行匹配时,在output函数中对该关键词是否属于该品类做判断。在上单系统中,关键词用Keyword类表示,该类的定义如下:

public class Keyword implements Serializable {private Integer id;private Map<Integer, Integer> categoryTypeMap;private String word;private List<Integer> categories; //当前的关键词属于哪几个分类getter and setter ...@Overridepublic boolean equals(Object o) {if (this == o) return true;if (o == null || getClass() != o.getClass()) return false;Keyword keyword = (Keyword) o;if (id != null ? !id.equals(keyword.id) : keyword.id != null) return false;return true;}@Overridepublic int hashCode() {return id != null ? id.hashCode() : 0;}}

其中,categoryTypeMap属性用来标识该关键词在不同品类中所代表的类型,当匹配命中时,根据类型信息指出其可能违反了哪些条款。

我们用一个Node类来代表状态转移树的一个节点,同时,将goto信息、fail信息和output信息封装到里面,这样,这个类的定义就像下面这样:

static class Node{int state;                    //自动机的状态,也就是节点数字char character = 0;           //指向当前节点的字符,也即条件Node failureNode;             //匹配失败时,下一个节点List<Keyword> keywords;       //匹配成功时,当前节点对应的关键词List<Node> children;          //当前节点的子节点...
}

我们用Patterns类来表示整个待匹配的模式串,它是对Node的进一步封装:

public static class Patterns{protected final Node root = new Node();protected List<Node> tree;public Patterns(List<Keyword> keywords) {tree = new ArrayList<Node>();tree.add(root);for(Keyword keyword : keywords){addKeyword(keyword);}setFailNode();}public void addKeyword(Keyword keyword) {char[] wordCharArr = keyword.getWord().toCharArray();Node current = root;for(char currentChar : wordCharArr){if(current.containsChild(currentChar)){current = current.getChild(currentChar);} else {Node node = new Node(table.size(), currentChar, root);current.addChild(node);current = node;tree.add(node);}}current.addKeyword(keyword);}public void setFailNode(){Queue<Node> queue = new LinkedList<Node>();Node node = root;for (Node d1 : node.children)queue.offer(d1);while (!queue.isEmpty()) {node = queue.poll();if (node.children != null) {for (Node curNode : node.children) {queue.offer(curNode);Node failNode = node.failureNode;while (!failNode.containsChild(curNode.character)) {failNode = failNode.failureNode;if (failNode.state == 0) break;}if (failNode.containsChild(curNode.character)) {curNode.failureNode = failNode.getChild(curNode.character);curNode.addKeywords(curNode.failureNode.keywords);}}}}}}

在上单系统中对关键词的匹配需要传递一个categoryId,当匹配成功时,我们需要根据传递的类别信息判断是否应该保存当前关键词:

public Set<Keyword> searchKeyword(String data, Integer category) {Set<Keyword> matchResult = new HashSet<Keyword>();Node node = patterns.getRoot();char[] chs = data.toCharArray();for(int i=0; i < chs.length; i++){while (!node.containsChild(chs[i])) {node = node.failureNode;if (node.state == 0) break;}if(node.containsChild(chs[i])){node = node.getChild(chs[i]);if(node.keywords != null){for(Keyword pattern : node.keywords){if (category == null) {matchResult.add(pattern);} else {if (pattern.getCategories().contains(category)) {matchResult.add(pattern);}}}}}}return matchResult;
}

算法的测试结果如下:

在第二张图中,有一个因素没有考虑进去,就是同样关键词数量,当关键词在文本中出现的次数较多时,因为需要遍历找出对应该品类的词,所以花费的时间会增加,但整体上还是符合预期的。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/477074.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

LintCode 600. 包裹黑色像素点的最小矩形(BFS)

1. 题目 一个由二进制矩阵表示的图&#xff0c;0 表示白色像素点&#xff0c;1 表示黑色像素点。 黑色像素点是联通的&#xff0c;即只有一块黑色区域。 像素是水平和竖直连接的&#xff0c;给一个黑色像素点的坐标 (x, y) &#xff0c;返回囊括所有黑色像素点的矩阵的最小面积…

浙大、阿里提出DictBERT,字典描述知识增强的预训练语言模型

文 | 刘聪NLP源 | NLP工作站写在前面大家好&#xff0c;我是刘聪NLP。今天给大家带来一篇IJCAI2022浙大和阿里联合出品的采用对比学习的字典描述知识增强的预训练语言模型-DictBERT&#xff0c;全名为《Dictionary Description Knowledge Enhanced Language Model Pre-training…

LintCode 207. 区间求和 II(线段树)

1. 题目 在类的构造函数中给一个整数数组, 实现两个方法 query(start, end) 和 modify(index, value): 对于 query(start, end), 返回数组中下标 start 到 end 的 和。对于 modify(index, value), 修改数组中下标为 index 上的数为 value. 样例1 输入: [1,2,7,8,5] [query(0…

深入解析String#intern

在 JAVA 语言中有8中基本类型和一种比较特殊的类型String。这些类型为了使他们在运行过程中速度更快&#xff0c;更节省内存&#xff0c;都提供了一种常量池的概念。常量池就类似一个JAVA系统级别提供的缓存。 8种基本类型的常量池都是系统协调的&#xff0c;String类型的常量池…

想通这点,治好 AI 打工人的精神内耗

文 | 天于刀刀受到疫情影响&#xff0c;今年公司的校招生报道日还未到来&#xff0c;23 年的秋招提前批就已经是如火如荼地开展。而诸神黄昏算法岗&#xff0c;作为招聘中最靓眼的仔&#xff0c;简历门槛早已是硕士打底博士起步&#xff0c;项目竞赛多多益善的情况了。面临着今…

DHL

有句俗语谓&#xff1a;“不看不知道&#xff0c;一看吓一跳”&#xff0c;这次通过“中外运-敦豪”的一次快递&#xff0c;亲身感受到这种“吓一跳”的滋味。 MS 总部从 1 月 26 日寄出 MVP Award 快递包之后&#xff0c;在随后的电子邮件中给出了每个人的 DHL 快件追踪号&…

数据结构--树--线段树(Segment Tree)

文章目录1. 概念2. 建树3. 查询4. 修改5. 完整代码及测试上图 from 熊掌搜索 类似数据结构&#xff1a;树状数组 1. 概念 线段树是一种二叉树&#xff0c;是用来表示一个区间的树&#xff1a; 常常用来查询区间的&#xff1a;和、最小值、最大值树结点中存放不是普通二叉树的…

神经网络可视化有3D版本了,美到沦陷!(已开源)

源 |量子位做计算机视觉&#xff0c;离不开CNN。可是&#xff0c;卷积、池化、Softmax……究竟长啥样&#xff0c;是怎样相互连接在一起的&#xff1f;对着代码凭空想象&#xff0c;多少让人有点头皮微凉。于是&#xff0c;有人干脆用Unity给它完整3D可视化了出来。还不光是有个…

CentOS6上Hadoop集群中服务器cpu sys态异常的定位与解决

问题现象 在zabbix系统中&#xff0c;对Hadoop集群的历史监控数据分析时&#xff0c;发现在执行大Job任务时&#xff0c;某些服务节点的cpu sys态很高&#xff1b;具体以hadoop_A服务节点为例&#xff0c;在10:15-10:40这个时间段&#xff0c;cpu user态为60%&#xff0c;而sys…

偶也Blog了

欢迎大家和我交流…………转载于:https://www.cnblogs.com/dsclub/archive/2004/06/18/16753.html

LintCode 1692. 组队打怪(田忌赛马,二分查找)

1. 题目 你现在有n个英雄&#xff0c;每个英雄的战斗力为 atk1,你要用这些英雄去对付n个怪物&#xff0c;每个怪物的战斗力为atk2。 在一场战斗中&#xff0c;你需要安排每个英雄分别与一个怪兽战斗&#xff0c;如果英雄战斗力高于怪兽&#xff0c;那个怪兽就会被击杀&#xf…

谷歌搜索,全球宕机??

文 | 好困源 | 新智元忽然之间&#xff0c;谷歌搜索&#xff0c;挂了。美东时间周一晚上9点&#xff08;北京时间周二早上9点&#xff09;左右&#xff0c;有不少用户突然发现自己上不去谷歌了。对于这次谷歌的突然宕机&#xff0c;网友们完全没有任何的心理准备。「谷歌停止工…

.NET建模

.NET建模 Deborah Melewski, Jack Vaughan[2004/1/1] 建模和软件设计又将迎来新一波的高峰。UML和模型驱动架构MDA目前在业界越发引人注目&#xff0c;清晰地进行前置设计&#xff08;design up front&#xff0c;译者注&#xff1a;这是过去批判得比较多的&#xff0c;是瀑布…

基于Flume的美团日志收集系统(一)架构和设计

背景 美团的日志收集系统负责美团的所有业务日志的收集&#xff0c;并分别给Hadoop平台提供离线数据和Storm平台提供实时数据流。美团的日志收集系统基于Flume设计和搭建而成。 《基于Flume的美团日志收集系统》将分两部分给读者呈现美团日志收集系统的架构设计和实战经验。 第…

LintCode 1690. 朋友推荐(二分插入)

1. 题目 某交友网站会给除了第一个用户以外的每个新注册的用户推荐一位之前已经注册过并且性格值和他最相近的用户&#xff0c;如果有多人满足条件则选择性格值较小的。 给定数组val[]表示按时间顺序注册的 n 位用户的性格值&#xff0c;输出一个大小为 n-1 的数组&#xff0…

WinForm与脚本的交互

这是去年学习SmartClient时写下的&#xff0c;有兴趣可以看看 将Winform Control嵌入IE,很多时候需要JS脚本与Control进行交互。一方面是在脚本中使用控件的属性&#xff0c;调用控件的方法&#xff0c;另外一方面是脚本中能够响应控件的事件。对于第一个问题较为简单&#…

我用AI大模型帮我写公众号赚钱!

文 |卖萌酱大家好&#xff0c;我是卖萌酱。最近太忙了&#xff0c;有很多想写的文章&#xff0c;但实在精力匮乏。怎么办&#xff0c;不能停更吧&#xff1f;就在这时&#xff0c;卖萌酱听到了一个新名词&#xff1a;AIGC。什么意思呢&#xff1f;我们知道互联网上的早期内容&a…

Nacos部署中的一些常见问题汇总

开个帖子&#xff0c;汇总一下读者经常提到的一些问题 问题一&#xff1a;Ubuntu下启动Nacos报错 问题描述 使用命令sh startup.sh -m standalone启动报错&#xff1a; ./startup.sh: 78: ./startup.sh: [[: not found./startup.sh: 88: ./startup.sh: [[: not found./startu…

土木工程正在沦为“天坑”专业…

文 | 羿阁&#xff08;发自凹非寺&#xff09;源 | 量子位一份转专业录用名单&#xff0c;直接把土木工程推向了舆论焦点。事情是这样的。前不久&#xff0c;湖南大学公示了2022年本科生转专业的一份名单。然后网友们惊奇地发现&#xff0c;土木工程学院共转出98人&#xff0c;…

Spring Cloud Alibaba基础教程:Nacos的集群部署

前情回顾&#xff1a; 《Spring Cloud Alibaba基础教程&#xff1a;使用Nacos实现服务注册与发现》《Spring Cloud Alibaba基础教程&#xff1a;支持的几种服务消费方式》《Spring Cloud Alibaba基础教程&#xff1a;使用Nacos作为配置中心》《Spring Cloud Alibaba基础教程&a…