b 树查找时间复杂度_你心里是没点B树吗?

点击上方“零一视界”,选择“星标”公众号

资源干货,第一时间送达

0458402359a2c2db46c84358444dcf0c.png

1 引言

数据库的增删改查等操作是开发过程中最为常见也是尤为重要的,尤其是现在大数据的兴起,导致数据存储量急剧增加,提升数据的操作效率就变得尤为关键。

大部分数据库的索引都采用树的结构存储,这是因为树的查询效率相对较高,且保持有序。

对于二叉搜索树的时间复杂度是O(logN),在算法以及逻辑上来分析,二叉搜索树的查找速度以及数据比较次数都是较小的。

但是我们不得不考虑一个新的问题。

数据量是远大于内存大小的,那我们在查找数据时并不能将全部数据同时加载至内存。既然不能全部加载至内存中就只能逐步的去加载磁盘中某个页,简而言之就是逐一的去加载磁盘,加数据分块的加载至内存进行查找与比较。

例如:在图1.1所示的树中查找10,树中的每个节点代表一个磁盘页。每次访问一个新节点代表一次磁盘IO。

60ce4221e23f1c0c64e07a8178f3a6d8.png
图1.0
e81e3abe0b1a8e78bbb378b68a111d3c.png
图1.1

通过查找过程可以看出,磁盘IO次数与树的高度相关,在最坏情况下,磁盘IO次数等于树的高度。由于磁盘IO过程是相对耗时效率较低的,因此,在设计数据存储结构时需要降低树的高度,即将一棵“瘦高”的树变得“矮胖”。

当数据数目相同,在保持有序前提下,降低树高度,只需将节点中存储的key值增加,即二叉搜索树中每个节点只有一个key,现将一个节点中存储多个key,得到的树即为B树。

2 定义

B树也称B-树,B-树直接读作B树,不能因为有“-”号就读作B减树,它是一颗多路平衡查找树。我们描述一颗B树时需要指定它的阶数,阶数表示了一个结点最多有多少个孩子结点,一般用字母m表示阶数。当m取2时,就是我们常见的二叉搜索树,m为3时是2-3树。

一颗m阶的B树定义如下:

(1)每个结点最多有m-1个关键字。
(2)根结点最少可以只有1个关键字。
(3)非根结点至少有Math.ceil(m/2)-1个关键字。Math.ceil(m/2)含义是向上取整。例如Math.ceil(4.5) = 5。
(4)每个结点中的关键字都按照从小到大的顺序排列,每个关键字的左子树中的所有关键字都小于它,而右子树中的所有关键字都大于它。
(5)所有叶子结点都位于同一层,或者说根结点到每个叶子结点的长度都相同。

3 查找

B-树的查找其实是对二叉搜索树查找的扩展, 与二叉搜索树不同的地方是,B-树中每个节点有不止一棵子树。在B-树中查找某个结点时,需要先判断要查找的结点在哪棵子树上,然后在结点中逐个查找目标结点。B树的查找过程相对简单,与二叉搜索树类似,因此不再赘述。

4 插入

B树的插入操作是指在树种插入一条新记录,即(key, value)的键值对。如果B树中已存在需要插入的键值对,则用需要插入的value替换旧的value。若B树不存在这个key,则一定是在叶子结点中进行插入操作。

4.1 插入流程

B树的插入流程如下:
  (1)根据要插入的key的值,对B树执行查找操作,查找到待插入数据的当前节点位置。
  (2)判断当前结点key的个数是否小于等于m-1,若满足,则结束直接插入数据,否则,进行第(3)步。
  (3)以结点中间的key为中心分裂成左右两部分,然后将这个中间的key插入到父结点中,这个key的左子树指向分裂后的左半部分,这个key的右子支指向分裂后的右半部分,然后将当前结点指向父结点,继续进行第(3)步。

4.2 实例图解

下面以5阶B树为例,介绍B树的插入操作,在5阶B树中,结点最多有4个key,最少有2个key。

插入图解:1:插入38,此时为空树,直接插入,并作为根节点。继续插入22、76、40,符合情形(2),直接插入。继续插入51,符合情形(3),执行分裂。

14b468919f69cd7220e7a8747ad0ba31.png
img
2:按照相同的步骤继续插入13、21。插入39,符合情形(3),导致节点分裂。选择中值22作为父节点,并将22节点上移,与40节点进行合并。
e6eaa87e1eefd0b95b1260c2a43ff582.png
img
3:按照同样的插入规则,继续向树中插入key为30、27、33、36、35、34、24、29的数据。插入完成后,继续插入key为26的数据,插入之后需要执行节点分裂。
bc9a11af5e9bb07226f64944135d440e.png
img
4:将key为27的数据节点上移至父节点,此时父节点已经有4个key,插入key27的数据后需要执行节点分裂。在插入key为26的数据后,导致根节点发生分裂,树的高度加1。
52b1c6d7363d08d056066c791a5791c7.png
img

4.3 性能分析

B树插入过程首先需要执行一次查找操作,B树的查找操作的时间复杂度为O(mlogmn)。其中m为B树的阶数,n为B树中key的数目。在插入过程,最耗时的情形即为:插入数据后导致根节点发生分裂,分裂节点的操作是常数级,分裂操作向上回溯的时间复杂度为O(h)。因此,B树的插入操作的时间复杂度近似于查找操作,即O(mlogmn)。

5 删除

5.1 删除流程

B树的删除流程如下:
  (1)如果当前需要删除的key位于非叶子结点上,则用后继key(这里的后继key均指后继记录的意思)覆盖要删除的key,然后在后继key所在的子支中删除该后继key。此时后继key一定位于叶子结点上,这个过程和二叉搜索树删除结点的方式类似。删除这个记录后执行第2步
  (2)该结点key个数大于等于Math.ceil(m/2)-1,结束删除操作,否则执行第(3)步。
  (3)如果兄弟结点key个数大于Math.ceil(m/2)-1,则父结点中的key下移到该结点,兄弟结点中的一个key上移,删除操作结束。否则,将父结点中的key下移与当前结点及它的兄弟结点中的key合并,形成一个新的结点。原父结点中的key的两个孩子指针就变成了一个孩子指针,指向这个新结点。然后当前结点的指针指向父结点,重复第(2)步。

5.2 实例图解

删除图解:1:首先删除21,符合情形(2)直接删除。删除21后,继续删除27,符合情形(1),使用后继节点28替代27,并删除28。

530c0c6cd07b8f5c397f0bb9bf776142.png
img
2:删除28后,当前节点只有一个key,因此需要按照情形(3)调整。当前节点的兄弟节点有3个key,父节点中key28下移,兄弟节点中key26上移,调整结束。调整完毕后继续删除32。
ef637516fe3d0e8921e9f13f5652bb95.png
img
3:删除32后,需要按照情形(3)进行调整,当前节点的兄弟节点只有2个key,则将父节点下移,将当前节点与一个兄弟节点合并,调整完毕。继续删除39,删除39后按照情形(3)进行调整。
6a7fe08e04cdb29c823610832c6968f7.png
img
4:当前节点变为只含有key40的节点,需要按照情形(3)继续调整,执行节点的合并,合并操作中包含根节点,导致合并之后的树的高度减1。
d7aa3c209e64d7853fcbbe68391d73f1.png
img

5.3 性能分析

B树的删除操作同样需要执行查找过程,时间复杂度为O(mlogmn)。删除数据过程与插入过程类似,最坏情况需要回溯O(h)。因此B树的删除操作的时间复杂度近似为O(mlogmn)。

6 总结

B树是一种平衡的多路查找树。其设计思路主要是通过节点中存储不止一个key,来降低树的高度。同等比较次数下,树的高度小保证磁盘IO次数相对较少,提高查找效率。

推荐阅读

有趣的学习《操作系统真象还原》

数据分析必备,《利用Python进行数据分析》推荐

有趣的算法书《算法图解》推荐

轻松学习网络知识,《图解HTTP》推荐

41e6586d17d7005cba24451cfb15f304.png

欢迎关注我们,收获资源干货

d0b283b32cb3d5658b84d3d8b141a3af.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/352098.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Opencv imshow显示不出来图片

VSOPENCV处理图像时,imshow显示图片一片灰色,刚开始以为图片太大一直加载不出来,但是一直等不到显示出来,最后发现是因为最后忘记写 cvWaitKey(0);//或者waitKey(0);

vue 2个方法先后执行_有效快速制作工资条的2个方法

发工资是每个月员工们最期待的事情,但是对于HR来说却是非常头痛的工作。如何快速制作工资条?相信很多HR朋友们都很想知道,那么今天本文就和大家分享2个制作工资条的高效方法。 第一种:传统方式(Excel制作)制…

Opencv图像保存到电脑及显示

针对两种类型的图片有两种不同的方法: 1、对于Mat类型图像,用imwrite、imshow Mat img_goodmatch; imwrite("最终匹配结果.bmp", img_goodmatch); //“”里面为路径及图片名,可以改为绝对路径 …

机器学习算法库scikit-learn的安装

scikit-learn 是一个python实现的免费开源的机器学习算法包,从字面意思可知,science 代表科学,kit代表工具箱,直接翻译过来就是用于机器学习的科学计算包。 安装scikit-learn有两种方式: (1)安装…

从头基于空镜像scratch创建一个新的Docker镜像

我们在使用Dockerfile构建docker镜像时,一种方式是使用官方预先配置好的容器镜像。优点是我们不用从头开始构建,节省了很多工作量,但付出的代价是需要下载很大的镜像包。 比如我机器上docker images返回的这些基于nginx的镜像,每个…

python bool转string_Python:可以返回boolean和string吗?

原始问题我已经创建了一个等待特定字符串出现在串行端口上的函数,并返回所有字符读取,直到找到该字符串,否则返回false.这很方便,但我想知道它是否被认为是不好的做法?澄清:主要目标是等待特定字符串在给定的时间内出现.除IO错误外,可能的结果为True(字符…

在CockroachDB上运行Flowable

什么是CockroachDB? CockroachDB是一个我一直关注很长一段时间的项目。 这是一个开放源代码的Apache 2许可数据库( Github链接 ), 极大地从Google Spanner白皮书中汲取了灵感 。 它的核心是可水平扩展的键值存储。 但是&#xff0…

C error :Run-Time Check Failure #2 - Stack around the variable 'b' was corrupted.

运行程序遇到这样的错误:Run-Time Check Failure #2 - Stack around the variable b was corrupted. 检查后发现原因在于:数组b越界了,int b[4]里面有4个元素,包含b[0],b[1],b[2],b[3],没有b[4],赋值的时候把某个数据赋…

如何配置Apache虚拟主机?(基于IP、基于端口、基于域名)

一、Apache虚拟机配置前的准备工作 1、下载yum源2、安装yum包3、安装httpd包4、查看并关闭selinux5、取消中心主机cd /etc/httpd/confvim httpd.conf修改文件中的内容如下:当以上这些工作准备好之后,我们就可以来配置虚拟机了二、我们首先来做一个基于IP…

[bat]删除文件

删除文件 del /f /s /q D:\HRG\NEW_Vn\CSV\*.meta 删除空文件夹 只能先删完文件夹中的文件,再删除空文件夹 rd /s /q D:\HRG\NEW_Vn\CSV\ 脚本 修改 echo off echo --------------------WARNING-------------------- echo [%1] folder will be deleted echo -------…

vvv在线文档导出工具_一款真正实时的在线文档协作编辑工具,多人可同时对一份文件修改...

etherpad-lite一个非常实时的网络协作文字处理器Etherpad是一款真正实时的协作编辑器,可扩展到数千个同步实时用户。与所有其他协作工具不同,Etherpad提供完全保真的数据导出和可移植性,使其完全符合GDPR标准。语言Etherpad是在服务器和客户端…

Mat的初始化以及Mat与数组的相互转化

Mat类型数据的初始化方法可以有以下两种&#xff1a; 1、直接初始化 Mat_<float> T_L (Mat_<float>(3, 1) << -518.97666, 01.20629, 9.14632); 2、利用数组初始化 float A[4][3] { 0 }; Mat A_mat Mat(4, 3, CV_32F, A);//如果是double类型用64 注意&…

smp架构与numa架构_NUMA架构和Java

smp架构与numa架构是时候部署您的应用程序了&#xff0c;期待着采购最适合负载要求的硬件。 如今&#xff0c;具有40核或80核的包装盒非常普遍。 总体概念是更多的内核&#xff0c;更多的处理能力&#xff0c;更多的吞吐量。 但是我看到了一些相反的结果&#xff0c;表明在80核…

CGI跟我学

CGI 意思为 Common Gateway Interface, 一种基于浏览器的输入、在Web服务器上运行的程序方法. CGI脚本 使你的浏览器与用户能交互&#xff0c;为了在数据库中寻找一个名词, 提供你写入的评论&#xff0c;或者从一个表单中选择几个条目并且能得到一个明确的回答. 如果你曾经遇到…

opencv中的矩阵拼接

hconcat、vconcat Mat_<float> T_L (Mat_<float>(3, 1) << -518.97666, 01.20629, 9.14632);//平移向量 Mat_<float> T_R (Mat_<float>(3, 2) << 518.97666, -01.20629,-9.14632,518.97666, -01.20629, -9.14632);//旋转向量 Mat_<f…

Java注释是一个大错误

注释是在Java 5中引入的&#xff0c;我们都为之兴奋。 如此出色的工具可以缩短代码&#xff01; 不再有Hibernate / Spring XML配置文件&#xff01; 只是注释&#xff0c;就在我们需要它们的代码中。 没有更多的标记接口 &#xff0c;只有运行时保留的 反射可发现注释&#xf…

tcpdump 抓二层包_可能是我见过的最简单易懂且实用的 TCPDump 和 Wireshark 抓包及分析教程!( 强烈建议收藏 )...

公众号关注 「奇妙的 Linux 世界」设为「星标」&#xff0c;每天带你玩转 Linux &#xff01;本文将展示如何使用 tcpdump 抓包&#xff0c;以及如何用 tcpdump 和 wireshark 分析网络流量。文中的例子比较简单&#xff0c;适合作为入门参考。1. 基础环境准备为方便大家跟着上手…

JDBC分页查询及实现

当数据过多时&#xff0c;一页之内是无法显示的&#xff0c;因此需要进行分页显示。 &#xff08;一&#xff09;分页技术实现&#xff1a; 物理分页&#xff1a; - 在数据库执行查询时&#xff08;实现分页查询&#xff09;&#xff0c;查询需要的数据—-依赖数据库的SQL语句 …

SELinux深入理解

1. 简介 SELinux带给Linux的主要价值是&#xff1a;提供了一个灵活的&#xff0c;可配置的MAC机制。 Security-Enhanced Linux (SELinux)由以下两部分组成&#xff1a; 1) Kernel SELinux模块(/kernel/security/selinux) 2) 用户态工具 SELinux是一个安全体系结构&#xff0c;它…

头文件的写法

#ifndef SURF_FUNC_H_//大写&#xff0c;防止头文件被多次包含&#xff0c;防止与自带的头文件重复 #define SURF_FUNC_H_float** SURFCompare(Mat srcImage1, Mat srcImage2, float paraHessian);#endif 1.只需要将函数声明、宏定义、结构声明等内容写入。 2.头文件可以定义很…