探索B-树系列

🌈前言🌈

        本文将讲解B树系列,包含 B-树,B+树,B*树,其中主要讲解B树底层原理,为什么用B树作为外查询的数据结构,以及B-树插入操作并用代码实现;介绍B+树、B*树。

📁常见的搜索结构

种类数据格式时间复杂度
顺序查找无要求O(N)
二分查找有序O(logN)
二叉搜索树无要求O(N)
二叉平衡树无要求O(logN)
哈希无要求O(1)

        以上数据结构适用于数据量不大的情况下,能够一次性存放在内存中,进行数据查找的场景。

        对内存进行访问是很快的,纳秒级别(10^-9)。但是同样时间内,访问磁盘的时间是很慢的,毫秒级别(10^-3)。

        从表格可以看出,高效的查找结构是二叉平衡树和哈希表,但是他们都有一定的缺点。

        对于二叉平衡树,时间复杂度还是很高,例如10亿的数据可能需要30次磁盘访问,这是难以接受的结果。        

        哈希表时间复杂度很低,但是哈希存在哈希冲突的问题,在某些极端场景下,某个位置冲突很多,导致访问次数剧增,也难以接受。

        因此,就有了B-树系列,通过压缩树的高度,来减少磁盘访问次数,提高对数据的访问速度。

📁 B树

 📂概念

        1970年,R.Bayer和E.mccreight提出了一种适合外查找的树,它是一种平衡的多叉树,称为B树。

一棵m阶(m>2)的B树,是一棵平衡的M路平衡搜索树,可以是空树或者满足一下性质:

 1. 根节点至少有两个孩子

 2. 每个分支节点都包含k-1个关键字和k个孩子,其中 ceil(m/2) ≤ k ≤ m ceil是向上取整函数

 3. 每个叶子节点都包含k-1个关键字,其中 ceil(m/2) ≤ k ≤ m

 4.  所有的叶子节点都在同一层

 5.  每个节点中的关键字从小到大排列,节点当中k-1个元素正好是k个孩子包含的元素的值域划分 

 6. 每个结点的结构为:(n,A0,K1,A1,K2,A2,… ,Kn,An)其中,Ki(1≤i≤n)为关键字,且Ki<Ki+1(1≤i≤n-1)。Ai(0≤i≤n)为指向子树根结点的指针。且Ai所指子树所有结点中的关键字均小于Ki+1。n为结点中关键字的个数,满足ceil(m/2)-1≤n≤m-1。

 📂 插入

插入流程:

        1. 如果树为空,直接插入新节点,作为根节点。

        2. 树非空,找到待插入元素在树的插入位置(维护B树的性质,一定要在叶子节点中插入)

        3.  找到元素要插入的节点cur后,插入元素,注意元素一定是从小到大排序的。

        4. 检测该节点cur是否满足B树性质:即节点中元素个数是否等于M,如果小于则满足

        5. 如果不满足,就进行分裂:

                a. 申请新节点brother。

                b. 找到cur节点中间位置mid,mid之后的元素和孩子节点移到brother中。

                c. mid元素及brother节点插入到上层节点parent,重复上述操作,指导节点满足B树性质。

        一下代码是为了更好理解 B-树插入流程,并不是为了造更好的轮子,但是整体结构上大致是一样的。

template<class K, int M>
struct BTreeNode
{typedef BTreeNode<K, M> Node;K _keys[M];Node* _subs[M + 1];size_t _n = 0;Node* _parent = nullptr;BTreeNode(){for (int i = 0; i < M; ++i){_keys[i] = K();_subs[i] = nullptr;}_subs[M] = nullptr;}
};template<class K,int M = 3>
class BTree
{typedef BTreeNode<K, M> Node;
public:pair<Node*, int> Find(const K& key){Node* parent = nullptr;Node* cur = _root;while (cur){size_t i = 0;while(i < cur->_n){if (key < cur->_keys[i]){break;}else if (key > cur->_keys[i]){++i;}else{return make_pair(cur, i);}}parent = cur;cur = cur->_subs[i];}return make_pair(parent, -1);}void insertKey(Node* node , const K& key , Node* child){int end = node->_n - 1;while (end >= 0){if (node->_keys[end] >= key){node->_keys[end + 1] = node->_keys[end];node->_subs[end + 2] = node->_subs[end + 1];--end;}else{break;}}node->_keys[end + 1] = key;node->_subs[end + 2] = child;if (child)child->_parent = node;++node->_n;}bool insert(const K& key){if (_root == nullptr){_root = new Node();_root->_keys[0] = key;_root->_n = 1;return true;}//去重pair<Node*, int> it = Find(key);if (it.second != -1){return false;}Node* cur = it.first;insertKey(cur, key, nullptr);//节点未满,可以继续存放关键码 , 不需要分裂直接返回if (cur->_n != M){return true;}//节点满了,向左 向上分裂//1. 找到节点数据域中间位置//2. 给一个新节点,将中间位置以后数据移动到brother //3. 中间位置数据移动到父节点//4. 节点连接while (cur->_n == M){Node* brother = new Node;size_t mid = cur->_n >> 1;int i = mid + 1, j = 0;while (i < M){//cur 把关键字及其左孩子给brotherbrother->_keys[j] = cur->_keys[i];brother->_subs[j++] = cur->_subs[i];cur->_keys[i] = K();cur->_subs[i] = nullptr;++i;}//最后处理一下最右位置的孩子brother->_subs[j] = cur->_subs[i];cur->_subs[i] = nullptr;K midKey = cur->_keys[mid];cur->_keys[mid] = K();brother->_n = j;cur->_n = cur->_n - j - 1;Node* parent = cur->_parent;if (parent == nullptr){//分裂的是根节点_root = new Node;_root->_keys[0] = midKey;_root->_subs[0] = cur;_root->_subs[1] = brother;_root->_n = 1;cur->_parent = _root;brother->_parent = _root;}else{//不是根节点 处理完当前层后,继续往上处理insertKey(parent, midKey, brother);cur = parent;parent = cur->_parent;}}return true;}private:Node* _root = nullptr;
};

        B-树效率是很高的,大多数场景下,M设为1024,因此对于10亿的数据量,我们只需要3次磁盘访问即可,对比二叉平衡树的十几次的磁盘访问是很快的,大大减少了读取磁盘的次数。

📁 B+树

        B+树是B树的变形,是在B树基础上优化的多路平衡搜索树,B+树的规则跟B树基本类似,但是又在B树的基础上做了以下几点改进优化:

        1. 分支节点的子树指针与关键字个数相同
        2. 分支节点的子树指针p[i]指向关键字值大小在[k[i],k[i+1])区间之间
        3. 所有叶子节点增加一个链接指针链接在一起
        4. 所有关键字及其映射数据都在叶子节点出现

B+树的特性:
        1. 所有关键字都出现在叶子节点的链表中,且链表中的节点都是有序的。
        2. 不可能在分支节点中命中。
        3. 分支节点相当于是叶子节点的索引,叶子节点才是存储数据的数据层。

B+树的分裂:
        当一个结点满时,分配一个新的结点,并将原结点中1/2的数据复制到新结点,最后在父结点中增加新结点的指针;B+树的分裂只影响原结点和父结点,而不会影响兄弟结点,所以它不需要指向兄弟的指针。

📁 B*树

        B*树是B+树的变形,在B+树的非根和非叶子节点再增加指向兄弟节点的指针。

B*树的分裂:
        当一个结点满时,如果它的下一个兄弟结点未满,那么将一部分数据移到兄弟结点中,再在原结点插入关键字,最后修改父结点中兄弟结点的关键字(因为兄弟结点的关键字范围改变了);如果兄弟也满了,则在原结点与兄弟结点之间增加新结点,并各复制1/3的数据到新结点,最后在父结点增加新结点的指针。
        所以,B*树分配新结点的概率比B+树要低,空间使用率更高;

📁 总结

        B树:有序数组+平衡多叉树;
        B+树:有序数组链表+平衡多叉树;
        B*树:一棵更丰满的,空间利用率更高的B+树。

        此外,B-树最常见的应用就是用来做索引。MySQL官方对索引的定义为:索引(index)是帮助MySQL高效获取数据的数据结构,简单来说:索引就是数据结构。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/69611.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Python的

& 运算符可用于不同集合类型&#xff0c;它主要用于集合的交集操作 下面分别介绍它在 set&#xff08;集合&#xff09;和 frozenset&#xff08;不可变集合&#xff09;这两种常见集合类型中的使用 set 类型 set 是 Python 中内置的可变集合类型&#xff0c;使用 & …

深入与浅出-Python爬虫逆向实战

一、什么是爬虫逆向&#xff1f; 爬虫逆向&#xff0c;简单来说&#xff0c;就是通过分析网页的前端和后端行为&#xff0c;找出数据的来源和获取方式&#xff0c;从而实现自动化抓取。很多时候&#xff0c;直接使用requests和BeautifulSoup可能无法获取到目标数据&#xff0c…

使用 POI-TL 和 JFreeChart 动态生成 Word 报告

文章目录 前言一、需求背景二、方案分析三、 POI-TL JFreeChart 实现3.1 Maven 依赖3.3 word模板设置3.2 实现代码 踩坑 前言 在开发过程中&#xff0c;我们经常需要生成包含动态数据和图表的 Word 报告。本文将介绍如何结合 POI-TL 和 JFreeChart&#xff0c;实现动态生成 W…

Java网络编程学习(一)

网络相关概念 网络体系结构 OSI体系结构&#xff08;七层&#xff09; OSI&#xff08;Open Systems Interconnection&#xff0c;开放系统互联&#xff09;体系结构将整个计算机网络分为七层&#xff0c;从上到下依次为&#xff1a;应用层、表示层、会话层、传输层、网络层…

flutter ListView Item复用源码解析

Flutter 的 ListView 的 Item 复用机制是其高性能列表渲染的核心&#xff0c;底层实现依赖于 Flutter 的渲染管线、Element 树和 Widget 树的协调机制。以下是 ListView 复用机制的源码级解析&#xff0c;结合关键类和核心逻辑进行分析。 1. ListView 的底层结构 ListView 的复…

粒子群优化算法:像鸟群一样找到最优解

前言 在人工智能的浩瀚星空中,粒子群优化算法(PSO)如同一颗熠熠生辉的明星,吸引了无数科研人员的目光。它的名字听起来好像非常高大上,仿佛只有数学天才和算法大师才能理解。但实际上,PSO的原理并没有那么复杂。想象一下,一群聪明的小鸟在天空中自由飞翔,大家互相呼唤…

QT修仙之路2-2 对话框 尚欠火候

警告对话框 相关代码 错误对话框 相关代码 消息对话框 相关代码 询问对话框 相关代码 相关代码 警告对话框 QMessageBox::warning(this,"错误","账号密码不能为空",QMessageBox::Ok);错误对话框 QMessageBox msgBox(QMessageBox::Critical,"错误…

Python 字典(一个简单的字典)

在本章中&#xff0c;你将学习能够将相关信息关联起来的Python字典。你将学习如何访问和修改字典中的信息。鉴于字典可存储的信息量几乎不受限制&#xff0c;因此我们会演示如何遍 历字典中的数据。另外&#xff0c;你还将学习存储字典的列表、存储列表的字典和存储字典的字典。…

conda 修复 libstdc++.so.6: version `GLIBCXX_3.4.30‘ not found 简便方法

ImportError: /data/home/hum/anaconda3/envs/ipc/bin/../lib/libstdc.so.6: version GLIBCXX_3.4.30 not found (required by /home/hum/anaconda3/envs/ipc/lib/python3.11/site-packages/paddle/base/libpaddle.so) 1. 检查版本 strings /data/home/hum/anaconda3/envs/ipc/…

RTD2775QT/RTD2795QT瑞昱显示器芯片方案

RTD2775QT与RTD2795QT&#xff1a;高性能4K显示驱动芯片 RTD2775QT与RTD2795QT是瑞昱半导体公司推出的两款高性能显示驱动芯片&#xff0c;专为满足现代显示设备对高清、高分辨率的需求而设计。这两款芯片不仅支持4K分辨率&#xff0c;还具备丰富的功能和卓越的性能&#xff0…

Linux路径中的‘~‘

本文来自DeepSeek 在Linux中&#xff0c;~ 是用户主目录的简写。具体含义如下&#xff1a; 当前用户的主目录&#xff1a; ~ 代表当前登录用户的主目录。例如&#xff0c;用户 alice 的主目录通常是 /home/alice&#xff0c;~ 就指向 /home/alice。 其他用户的主目录&#xff…

【含开题报告+文档+PPT+源码】学术研究合作与科研项目管理应用的J2EE实施

开题报告 本研究构建了一套集注册登录、信息获取与科研项目管理于一体的综合型学术研究合作平台。系统用户通过注册登录后&#xff0c;能够便捷地接收到最新的系统公告和科研动态新闻&#xff0c;并能进一步点击查看详尽的新闻内容。在科研项目管理方面&#xff0c;系统提供强…

ES6 Proxy 用法总结以及 Object.defineProperty用法区别

Proxy 是 ES6 引入的一种强大的拦截机制&#xff0c;用于定义对象的基本操作&#xff08;如读取、赋值、删除等&#xff09;的自定义行为。相较于 Object.defineProperty&#xff0c;Proxy 提供了更灵活、全面的拦截能力。 1. Proxy 语法 const proxy new Proxy(target, hand…

力扣 单词拆分

动态规划&#xff0c;字符串截取&#xff0c;可重复用&#xff0c;集合类。 题目 单词可以重复使用&#xff0c;一个单词可用多次&#xff0c;应该是比较灵活的组合形式了&#xff0c;可以想到用dp&#xff0c;遍历完单词后的状态的返回值。而这里的wordDict给出的是list&…

Node.js 环境配置

什么是 Node.js Node.js 是一个基于 Chrome V8 JavaScript 引擎的 JavaScript 运行时环境&#xff0c;它允许你在服务器端运行 JavaScript。传统上&#xff0c;JavaScript 主要用于浏览器中的前端开发&#xff0c;而 Node.js 使得 JavaScript 也能够在服务器上执行&#xff0c;…

Redis企业开发实战(四)——点评项目之分布式锁

目录 一、分布式锁介绍 (一)分布式锁基本介绍 (二)分布式锁满足的条件 (三)常见的分布式锁 1.Mysql 2.Redis 3.Zookeeper 二、Redis分布式锁详解 (一)Redis分布式锁的实现核心思路 获取锁&#xff1a; 释放锁&#xff1a; (二)基于Redis实现分布式锁初级版本 1.…

kalilinu渗透测试全流程方案

1. 准备阶段 1.1 目标确认与风险评估 本方案旨在教育作用&#xff0c;请勿在没有授权的情况下使用 2. 信息收集 2.1 被动信息收集 2.1.1 DNS侦察 子域名枚举&#xff1a;# 使用Amass进行子域名枚举 amass enum -d example.com# 使用Subfinder进行子域名发现 subfinder -d…

【个人开发】cuda12.6安装vllm安装实践【内含踩坑经验】

1. 背景 vLLM是一个快速且易于使用的LLM推理和服务库。企业级应用比较普遍&#xff0c;尝试安装相关环境&#xff0c;尝试使用。 2. 环境 模块版本python3.10CUDA12.6torch2.5.1xformers0.0.28.post3flash_attn2.7.4vllm0.6.4.post1 2.1 安装flash_attn 具体选择什么版本&…

面试准备——Java理论高级【笔试,面试的核心重点】

集合框架 Java集合框架是面试中的重中之重&#xff0c;尤其是对List、Set、Map的实现类及其底层原理的考察。 1. List ArrayList&#xff1a; 底层是动态数组&#xff0c;支持随机访问&#xff08;通过索引&#xff09;&#xff0c;时间复杂度为O(1)。插入和删除元素时&#…

【鸿蒙开发】第二十四章 AI -Natural Language Kit(自然语言理解服务)

目录 1 简介 2 约束与限制 3. 分词 3.1 适用场景 3.2 约束与限制 3.3 开发步骤 3.4 开发实例 4 实体抽取 4.1 适用场景 4.2 约束与限制 4.3 开发步骤 4.4 开发实例 1 简介 Natural Language Kit&#xff08;自然语言理解服务&#xff09;提供了多项文本语义理解相…