Hive SQL判断一个字符串中是否包含字串的N种方式及其效率

Hive SQL判断一个字符串中是否包含字串的N种方式及其效率

  • 背景
    • 方案1:regexp_extract
    • 方案2:instr
    • 方案3:locate
    • 方案4:like
    • 方案5: rlike
    • 方案6:strpos
  • 计算效率对比

背景

这是个常见需求,某个表tab中,需要判断某个string类型的字段中,哪些数据含有一个子串。以下给出6种方案,并给出效率对比。

方案1:regexp_extract

可以使用regexp_extract(subject, pattern, index)函数来提取字符串中匹配指定正则表达式的字串。要判断一个字符串中是否包含字串"ABCD;",可以使用如下代码:

SELECTCASEWHEN regexp_extract(subject, 'ABCD;', 0) != '' THEN '包含'ELSE '不包含'END AS is_contain
FROMyour_table;

其中,subject是要判断的字符串,'ABCD;‘是要匹配的字串,0表示从整个匹配结果中获取整个字串。如果返回的字串不为空,则说明匹配到了,即包含字串’ABCD;’,否则不包含。你需要将your_table替换为你实际使用的表名或子查询。

方案2:instr

使用instr(str, substr)函数来实现,使用类似下面的代码:

SELECTCASEWHEN instr(subject, 'ABCD;') > 0 THEN '包含'ELSE '不包含'END AS is_contain
FROMyour_table;

subject是要判断的字符串,'ABCD;'是要匹配的字串。instr(str, substr)函数返回字串substr在str中第一次出现的位置,如果找不到则返回0。通过判断返回的位置是否大于0来判断是否包含指定字串。

方案3:locate

使用locate(substr, str)函数。该函数会返回匹配到的子串的位置,如果未找到则返回0。相比于instr函数,locate函数更快。

你可以使用如下代码来实现:

SELECTCASEWHEN locate('ABCD;', subject) > 0 THEN '包含'ELSE '不包含'END AS is_contain
FROMyour_table;

在这里,subject是要检查的字符串,'ABCD;'是要匹配的字串。通过判断locate函数返回的位置是否大于0,即可判断字符串中是否包含了指定的字串。

方案4:like

使用like运算符来判断字符串中是否包含特定的字串。这种方式比使用函数更高效。你可以使用以下代码来实现:

SELECTCASEWHEN subject LIKE '%ABCD;%' THEN '包含'ELSE '不包含'END AS is_contain
FROMyour_table;

在这里,subject是要判断的字符串,'%ABCD;%'是要匹配的字串模式。%是通配符,表示可以匹配任意字符。如果字符串中存在字串"ABCD;",那么LIKE运算符会返回true,否则返回false。

方案5: rlike

使用正则表达式的RLIKE操作符。这个操作符可以直接在正则表达式中进行匹配,而无需使用额外的函数调用。以下是如何使用RLIKE操作符进行判断的示例代码:

SELECTCASEWHEN subject RLIKE '.*ABCD;.*' THEN '包含'ELSE '不包含'END AS is_contain
FROMyour_table;

在这里,subject是待判断的字符串,'.ABCD;.'是匹配的正则表达式。.*表示匹配任意字符的零或多次重复。如果字符串中存在字串"ABCD;",RLIKE操作符将返回true,否则返回false。

方案6:strpos

使用Hive的内置函数strpos(s, substr),它返回子串在原始字符串中第一次出现的位置,如果找不到则返回0。相比较前面提到的方法,使用strpos函数可以更高效地判断字符串中是否包含特定字串。以下是使用strpos函数判断字符串是否包含字串的示例代码:

SELECTCASEWHEN strpos(subject, 'ABCD;') > 0 THEN '包含'ELSE '不包含'END AS is_contain
FROMyour_table;

在上述代码中,subject是要检查的字符串,'ABCD;'是要匹配的字串。通过判断strpos函数返回的位置是否大于0,就可以确定字符串是否包含指定的字串。

计算效率对比

在计算效率方面,使用LIKE运算符进行字符串匹配是最高效的方式。LIKE运算符可以直接在字符串中进行模式匹配,不需要额外的函数调用或正则表达式解析过程,因此性能相对较高。

相比之下,使用正则表达式的RLIKE操作符需要对正则表达式进行解析和匹配,所以性能略低于直接使用LIKE运算符。

而使用strpos、instr和locate等函数进行字符串匹配,内部实现可能会涉及字符串扫描和模式匹配等操作,所以性能相对较低。

综上所述,从计算效率角度上来说,使用LIKE运算符是最高效的方式。在处理大量数据时,使用LIKE运算符可以获得更好的性能。

从计算效率的角度,按照效率高到效率低的顺序,可以将上面提到的6种方式,按照计算效率高到计算效率低进行排序:

  1. LIKE运算符:直接使用LIKE运算符进行字符串匹配,是性能最高的方式之一。
  2. RLIKE操作符:使用正则表达式的RLIKE操作符进行匹配,在某些情况下可以比较高效。
  3. strpos函数:使用Hive的内置函数strpos进行字符串匹配。
  4. instr函数:使用instr函数来匹配字符串中的子串。
  5. locate函数:使用locate函数来匹配字符串中的子串。
  6. regexp_extract函数:使用regexp_extract函数通过正则表达式来提取匹配结果。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/241304.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

HTML---网页布局

目录 文章目录 一.常见的网页布局 二.标准文档流 标准文档流常见标签 三.display属性 四.float属性 总结 一.常见网页布局 二.标准文档流 标准文档流常见标签 标准文档流的组成 块级元素<div>、<p>、<h1>-<h6>、<ul>、<ol>等内联元素<…

网络架构与协议

网络架构是指计算机网络的各层及其协议的集合。计算机之间要交换数据&#xff0c;就必须遵守一些事先约定好的规则&#xff0c;用于规定信息的格式及如何发送和接收信息的一套规则就称为网络协议。为了减少网络协议设计的复杂性&#xff0c;网络设计者并不是设计一个单一、巨大…

国内chatGPT3.5升级到chatGPT4.0的教程

1、准备一个3.5的账号 2、准备一个美元虚拟信用卡 这里默认您是有账号的 1、注册办理卡 2、按图片步骤就可以开卡成功 3、卡片cvc在卡中心cvc安全码里面 4、登录ChatGPT 第三步:升级 Plus 完成了上面步骤 小白朋友连账号都么有的&#xff0c;可以使用谷歌邮箱直接在open…

房顶漏水啦【算法赛】

问题描述 小蓝家的房顶是一个边长为 n 的正方形&#xff0c;可以看成是由 nn 个边长为 1 的小正方形格子组成。 从上到下第 i 行、从左到右第 j 列的格子用 (i,j) 表示。 小蓝的家由于年久失修&#xff0c;导致房顶有一些地方漏水。总共有 m 处漏水的地方&#xff0c;我们用…

K8s攻击案例:Privileged特权容器导致节点沦陷

01、概述 特权容器&#xff08;Privileged Container&#xff09;是一种比较特殊的容器&#xff0c;在K8s中运行特权容器&#xff0c;需要将 Privileged 设为 true &#xff0c;容器可以执行几乎所有可以直接在主机上执行的操作。 基于此&#xff0c;利用容器的特权配置可以获取…

Vue 实现响应式布局

实现响应式布局是工作中必不可少 客户需要 若是使用vue element ui 的方式实现 浏览器宽度为760的情况 浏览器宽度为360的情况 手机上的显示的情况 一、对于屏幕尺寸的定义 element UI参照Bootstrap的解决方案提供了五种屏幕大小尺寸&#xff1a;xs、sm、md、lg 和 xl。并对…

Vue+ElementUI+nodejs学生宿舍报修管理系统68ozj

本站是一个B/S模式系统&#xff0c;采用vue框架&#xff0c;MYSQL数据库设计开发&#xff0c;充分保证系统的稳定性。系统具有界面清晰、操作简单&#xff0c;功能齐全的特点&#xff0c;使得学生宿舍信息管理系统管理工作系统化、规范化。本系统的使用使管理人员从繁重的工作中…

实用干货:公司规定所有接口都用 POST请求,为什么?

大家好&#xff0c;我是大澈&#xff01; 本文约1000字&#xff0c;整篇阅读大约需要2分钟。 感谢关注微信公众号&#xff1a;“程序员大澈”&#xff0c;免费领取"面试礼包"一份&#xff0c;然后免费加入问答群&#xff0c;从此让解决问题的你不再孤单&#xff01…

前端面试——JavaScript面经(持续更新)

一、数据类型 1. JavaScript用哪些数据类型、它们有什么区别&#xff1f; JavaScript共有八种数据类型&#xff0c;分别包括5种基本数据类型和3种非基本数据类型。 基本数据类型&#xff1a;Undefined、Null、Boolean、Number、String。非基本数据类型&#xff1a;Object、S…

在k8s中使用Helm安装harbor并将Chart推送到私有仓库harbor

使用Helm安装harbor并将Chart推送到私有仓库harbor 注意&#xff1a;如果你的harbor是之前docker-compose安装的&#xff0c;还需要额外做一个动作&#xff0c;让它支持chart docker-compose stop ./install.sh --with-chartmuseum1&#xff09;下载harbor的chart包 Harbor的…

「数据结构」二叉树2

&#x1f387;个人主页&#xff1a;Ice_Sugar_7 &#x1f387;所属专栏&#xff1a;初阶数据结构 &#x1f387;欢迎点赞收藏加关注哦&#xff01; 文章目录 &#x1f349;前言&#x1f349;链式结构&#x1f349;遍历二叉树&#x1f34c;前序遍历&#x1f34c;中序遍历&#x…

MySQL升级版本(Linux环境)

摘要 由于我们在做部署的时候会部署MySQL&#xff0c;但是版本可能各种各样&#xff0c;而且我们服务器会定期的进行漏洞扫描&#xff0c;因此我们在遇到MySQL的相关漏洞时&#xff0c;一般漏洞报告中会提示出解决方案&#xff0c;一般来时就是升级软件的版本&#xff0c;因此…

C# WPF上位机开发(从demo编写到项目开发)

【 声明&#xff1a;版权所有&#xff0c;欢迎转载&#xff0c;请勿用于商业用途。 联系信箱&#xff1a;feixiaoxing 163.com】 C# WPF编程&#xff0c;特别是控件部分&#xff0c;其实学起来特别快。只是后面多了多线程、锁、数据库、网络这部分稍微复杂一点&#xff0c;不过…

CAD制图

CAD制图 二维到三维 文章目录 CAD制图前言一、CAD制图二、机械设计三、二维图纸四、三维图纸总结前言 CAD制图可以提高设计效率和准确性,并方便文档的存档和交流,是现代工程设计中不可或缺的一部分。 一、CAD制图 CAD(Computer-Aided Design)是利用计算机技术辅助进行设计…

cmake学习【function】

cmake学些function 在CMake中&#xff0c;function命令用于定义函数&#xff0c;允许你封装一段逻辑&#xff0c;使其在多个地方重复使用。以下是function命令的主要用法及其参数&#xff0c;以及一些示例说明&#xff1a; 1. 基本语法 function(functionName [arg1 [arg2 .…

欠采样对二维相位展开的影响

1.前言 如前所述&#xff0c;相位展开器通过计算两个连续样本之间的差来检测图像中包裹的存在。如果这个差值大于π或小于-π&#xff0c;则相位展开器认为在这个位置存在包裹。这可能是真正的相位包络&#xff0c;也可能是由噪声或采样不足引起的伪包络。 对欠采样的相位图像…

【自营版】物流系统+取件员收件员/运营级快递系统小程序源码

后端php前端原生小程序 mysql数据库 主要功能&#xff1a; 寄快递 查快递 多门店 市内取送 取件员中心在线接单 提前预约 也可 立即下单 门店入住 取件员入住

交叉熵损失(Cross-Entropy loss)

在处理机器学习或深度学习问题时&#xff0c;损失/成本函数用于在训练期间优化模型。目标几乎总是最小化损失函数。损失越低&#xff0c;模型越好。交叉熵损失是最重要的成本函数。它用于优化分类。对交叉熵的理解取决于对 Softmax 激活函数的理解。 一、softmax激活函数 激活…

屏幕颜色吸取器

前言 屏幕颜色吸取器。 前端工程师的福音&#xff0c;获取全屏幕上所有位置的颜色。 运行在window上的软件 屏幕颜色吸取器 前言1 下载解压2 使用 1 下载解压 下载地址&#xff1a;https://download.csdn.net/download/qq_44850489/11943229 下载下来之后解压 如下图&#…

案例系列:泰坦尼克号_预测幸存者_TensorFlow决策森林

文章目录 1. 导入依赖库2. 加载数据集3. 准备数据集4. 将Pandas数据集转换为TensorFlow数据集5. 使用默认参数训练模型6. 使用改进的默认参数训练模型7. 进行预测8. 使用超参数调优训练模型9. 创建一个集成模型 TensorFlow决策森林在表格数据上表现较好。本笔记将带您完成使用T…