C++:Hash应用【位图与布隆过滤器】

什么是位图?

我们先来看一个问题:
给40亿个不重复的无符号整数,没排过序。给一个无符号整数,如何快速判断一个数是否在
这40亿个数中。【腾讯】
如果我们使用unordered_set容器来解决,40亿个数据,每个数据占4个字节,那么一共需要16G内存,对于内存消耗太大了,而如果存储的不是整形数据,那么只会消耗更大。

这个时候我们可以引出位图,每个整数是否存在可以使用一个对应比特位的0或者1来表示,这样原来32位才能表示一个数,现在只需要1位就可以解决,40亿个数据只需要0.5G。

位图:

位图是一种用于表示集合的数据结构,通常用一个二进制数组来表示。每个元素在位图中对应于数组中的一个位(bit),位图中的每一位表示集合中的一个元素是否存在。
位图通常用于处理大量的布尔型数据,例如标记某些元素是否出现过,或者记录某些状态的信息。由于位图中的每一位只占用一个比特(bit),因此它可以非常紧凑地表示大量的信息。
位图在存储和检索方面的效率都非常高,但是它的缺点是无法直接支持范围查询,只能用于表示离散的集合。

位图的模拟实现

我们先来看一下库中实现的位图
在这里插入图片描述
我们接下来主要实现位图中三个主要的功能函数

1.set
将一个数据放入位图
2.reset
将一个数据移出位图
3.test
检测一个数据在不在位图中
在这里插入图片描述
如上图所示,假如以一个字节为单位,那么which/8就是在第几块中,which%8就是在第几块的第几位。改变对应比特位上的0或1就可以表示该元素是否存在。

模拟实现代码


```cpp
#pragma once
template<size_t N>
class bitset
{
public:bitset(size_t bitcount=N):_bits((bitcount>>5)+1,0)  //为vector数组开辟大小初始化{}void set(size_t which){if (which > N)return;size_t i = which >> 5;size_t pos = which % 32;_bits[i] |= (1 << pos);//将对应的比特位置为1}void reset(size_t which){if (which > N)return;size_t i = which >> 5;size_t pos = which % 32;_bits[i] &= ~(1 << pos);//将对应的比特位置为0}bool test(size_t which){if (which > N)return false;size_t i = which >> 5;size_t pos = which % 32;return _bits[i] & (1 << pos);//如果不存在则结果为0,如果存在则非0}
private:vector<int> _bits;
};

``

布隆过滤器

  1. 用哈希表存储用户记录,缺点:浪费空间
  2. 用位图存储用户记录,缺点:位图一般只能处理整形,如果内容编号是字符串,就无法处理了。
  3. 将哈希与位图结合,即布隆过滤器 布隆过滤器(Bloom Filter)是一种数据结构,用于判断一个元素是否可能存在于一个集合中。它通过利用一系列哈希函数和一个位数组来实现快速的成员存在查询。

具体来说,布隆过滤器通常包含以下几个要素:

一个位数组(通常用0和1表示),长度为m,初始化时所有位都被置为0。
一组哈希函数,用于将元素映射到位数组的不同位置。

在将一个元素加入布隆过滤器时,该元素会经过多个哈希函数的映射,对应的位数组位置被置为1。在查询一个元素是否存在于布隆过滤器时,同样进行多次哈希映射,若所有映射对应的位都为1,则说明该元素可能存在于集合中,若存在任何一个位为0,则可以确定该元素不存在于集合中。
在这里插入图片描述
如上图所示,假设有三个哈希函数,映射出三个比特位 ,孙悟空与孙行者各自对应三个,而这些比特位有可能重合,所以比特位为1不一定在,而比特位为0一定不在。

也就是说,如果该元素映射的所有位都为1,则该元素不一定在;
如果所有映射位中有一个为0,则该元素一定不在。

布隆过滤器的模拟实现

首先我们先来选择几个哈希映射函数:

//三个不同的将字符串映射成整数的函数
struct HashBKDR
{size_t operator()(const string& key){size_t val = 0;for (auto ch : key){val *= 131;val += ch;}return val;}
};
struct HashAP
{size_t operator()(const string& key){size_t hash = 0;for (size_t i = 0; i < key.size(); i++){if ((i & 1) == 0)hash ^= ((hash << 7) ^ key[i] ^ (hash >> 3));elsehash ^= (~((hash << 11) ^ key[i] ^ (hash >> 5)));}return hash;}
};
struct HashDJB
{size_t operator()(const string& key){size_t hash = 5381;for (auto ch : key)hash += (hash << 5) + ch;return hash;}
};

布隆过滤器模拟实现
布隆过滤器的实现还是基于位图实现的,不过是把字符串映射为size_t的key值。

template<size_t N,class K=string,class Hash1=HashAP,class Hash2=HashBKDR,class Hash3=HashDJB>
class bloomfilter
{
public:void set(const K& str){size_t hash1 = Hash1()(str) % (_ratio * N);_bits->set(hash1);size_t hash2 = Hash2()(str) % (_ratio * N);_bits->set(hash2);size_t hash3 = Hash3()(str) % (_ratio * N);_bits->set(hash3);}//支持删除可能会删除其他值/*void reset(const K& str){size_t hash1 = Hash1(str) % (_ratio * N);_bits->reset(hash1);size_t hash2 = Hash2(str) % (_ratio * N);_bits->reset(hash2);size_t hash3 = Hash3(str) % (_ratio * N);_bits->reset(hash3);}*/bool test(const K& str){size_t hash1 = Hash1()(str) % (_ratio * N);if (!_bits->test(hash1)){return false;}size_t hash2 = Hash2()(str) % (_ratio * N);if (!_bits->test(hash2)){return false;}size_t hash3 = Hash3()(str) % (_ratio * N);if (!_bits->test(hash3)){return false;}return true;}private:const static size_t _ratio = 5;//空间开的越大,误判率越小wjc::bitset<_ratio*N>* _bits=new wjc::bitset<_ratio*N>;
};

以上就是布隆过滤器的模拟实现
布隆过滤器的优点在于其空间效率和查询速度都很高,但缺点是可能存在误判,即布隆过滤器判断某个元素存在于集合中,但实际上并不存在(false positive)。这种误判的概率可以通过合适选择位数组长度和哈希函数数量来控制。

布隆过滤器可以从以下几个方面优化

1.选择合适的哈希函数:
哈希函数的选择对布隆过滤器的性能影响很大。理想的哈希函数应该具有良好的均匀性,能够将元素均匀地映射到位数组的各个位置,从而降低碰撞的概率。常见的哈希函数包括MurmurHash、MD5和SHA等。

2.适当调整位数组长度: 增加位数组的长度可以降低误判率,但也会增加内存消耗。根据误判率的要求和可用内存的限制,选择适当的位数组长度。

3.增加哈希函数数量:
使用多个独立的哈希函数可以减少冲突的概率,进而降低误判率。但增加哈希函数数量也会增加计算成本。通常情况下,选择适量的哈希函数数量以在减少误判的同时保持较低的计算成本。

4.监控和调整误判率: 在实际应用中,可以通过监控布隆过滤器的误判率来评估其性能,并根据需要调整位数组长度和哈希函数数量以达到最优性能。

5.考虑动态调整: 在一些场景中,集合的特征可能随时间变化,可以考虑动态地调整布隆过滤器的参数,以适应集合的变化。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/819845.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

MaxCompute 近实时增全量处理一体化新架构和使用场景介绍

随着当前数据处理业务场景日趋复杂&#xff0c;对于大数据处理平台基础架构的能力要求也越来越高&#xff0c;既要求数据湖的大存储能力&#xff0c;也要求具备海量数据高效批处理能力&#xff0c;同时还可能对延时敏感的近实时链路有强需求&#xff0c;本文主要介基于 MaxComp…

python将pdf转为docx

如何使用python实现将pdf文件转为docx文件 1.首先要安装pdf2docx库 pip install pdf2docx2.实现转换 from pdf2docx import Converterdef convert_pdf_to_docx(input_pdf, output_docx):# 创建一个PDF转换器对象pdf_converter Converter(input_pdf)# 将PDF转换为docx文件pdf…

护眼台灯哪个牌子好?护眼灯十大品牌推荐,谁用谁真香

对于有子女的家庭&#xff0c;特别是那些热爱阅读的&#xff0c;晚上看书时更应该注重光线的问题&#xff0c;不然一旦光线过暗就容易导致视觉疲劳&#xff0c;进而演化为近视。因此&#xff0c;除了打开房间的灯&#xff0c;在桌面上放置一台护眼台灯更加能够保护眼睛。然而&a…

社交网络与Web3:数字社交的下一阶段

随着信息技术的飞速发展&#xff0c;人们的社交方式也发生了巨大的变化。从最初的互联网聊天室到如今的社交网络平台&#xff0c;我们已经见证了数字社交的不断演变和发展。而随着区块链技术的兴起&#xff0c;Web3时代的到来将为数字社交带来全新的可能性和挑战。本文将探讨社…

【JAVA基础篇教学】第十四篇:Java中设计模式

博主打算从0-1讲解下java基础教学&#xff0c;今天教学第十四篇&#xff1a;Java中设计模式。 设计模式是解决软件设计中常见问题的可重复利用的解决方案。在 Java 中&#xff0c;常见的设计模式包括单例模式、工厂模式、观察者模式等。目前在基础教学篇中只展示常见的几种模…

STM32笔记---CAN采样点设置和报错

STM32笔记---CAN采样点设置和报错 采样点设置再同步补偿宽度&#xff08;SJW&#xff09;设置 报错分析CAN中断使能寄存器CAN错误状态寄存器 采样点设置 以前配置CAN参数的BS1和BS2参数时认为总线波特率符合要求就可以了&#xff0c;其实同一个波特率可能对应多组参数设置的情…

开发公司 or 个人开发者?软件开发如何选择?

引言 随着科技的发展&#xff0c;软件开发已成为一个相对复杂的行业&#xff0c;需要专业的技能和经验来保证项目的成功。许多企业、组织和个人都纷纷加入到了软件开发的队伍中。在选择软件开发人员时&#xff0c;您可能会面临一个选择&#xff1a;是找个人开发人员还是找专业的…

访问者模式【行为模式C++】

1.概述 访问者模式是一种行为设计模式&#xff0c; 它能将算法与其所作用的对象隔离开来。 访问者模式主要解决的是数据与算法的耦合问题&#xff0c;尤其是在数据结构比较稳定&#xff0c;而算法多变的情况下。为了不污染数据本身&#xff0c;访问者会将多种算法独立归档&…

数据结构与算法——22.哈希算法

这篇文章我们来讲一下哈希表中较为关键的部分——哈希算法 目录 1.哈希算法的介绍 2.hash算法的使用 2.1 Object.hashCode 2.2 String.hashCode 3.关于哈希表及哈希算法的一些思考 1.哈希算法的介绍 问题&#xff1a;什么是哈希算法&#xff1f;哈希算法有哪些&#xff…

软件杯 深度学习图像修复算法 - opencv python 机器视觉

文章目录 0 前言2 什么是图像内容填充修复3 原理分析3.1 第一步&#xff1a;将图像理解为一个概率分布的样本3.2 补全图像 3.3 快速生成假图像3.4 生成对抗网络(Generative Adversarial Net, GAN) 的架构3.5 使用G(z)生成伪图像 4 在Tensorflow上构建DCGANs最后 0 前言 &#…

NLP的奥秘:用 Python 揭秘人类语言与人工智能的桥梁【6000 字长文含代码示例】

目录 NLP 的核心任务 NLP 的发展历史 NLP 的技术与方法 传统的 NLP 技术与方法 规则基础方法&#xff1a;语言学的智慧 统计学习方法&#xff1a;数据的力量 深度学习方法&#xff1a;人工智能的新浪潮 NLP 的应用领域 Python在 NLP 中的应用 1、NLTK (Natural Langu…

【第十四届蓝桥杯省赛题目】

选择题&#xff1a; 1.设只含根结点的二叉树高度为1&#xff0c;共有62个结点的完全二叉树的高度为&#xff1f; A.4 B.5 C.6 D.7 解析&#xff1a;高度为K的满二叉树 节点数为 2k-1 &#xff0c;如果K6 最多有63个节点 故答案为6 选C 2.C中&#xff0c;bool类型的变量占用字…

【AAAI2024】点云的自适应邻域提取

论文标题&#xff1a;Point Deformable Network with Enhanced Normal Embedding for Point Cloud Analysis 论文地址&#xff1a;https://ojs.aaai.org/index.php/AAAI/article/view/28497 两个创新点&#xff1a;可变邻域法向量提取 一、由固定邻居变为可变的邻域 二、最小二…

2.SG90舵机模块

当我们输出一段脉冲信号的时候就可以调节舵机的角度 我们可以从原理图可以看到舵机的脚在PA6 从芯片手册我们又可以看到PA6对应TIM3_CH1,并且不用开启部分重映像就能使用 新建Servo.c存放PWM初始化 配置PWM void Servo_TIM3_Init(u16 arr,u16 psc) {//开启TIM3的时钟RCC_APB1…

嵌入式工程师如何利用周末提升自己?

提升自己一定要趁早&#xff0c;这是作为中年人的我&#xff0c;对年轻人的忠告。 以前年轻&#xff0c;觉得时间多&#xff0c;总是幻想着&#xff0c;很多人也大器晚成啊&#xff0c;晚点努力也不晚。 前阵子小米汽车火了&#xff0c;雷总说这是他最后一次重大创业&#xff0…

轻松上手MYSQL:MYSQL初识(上)

​&#x1f308; 个人主页&#xff1a;danci_ &#x1f525; 系列专栏&#xff1a;《MYSQL入门》 &#x1f4aa;&#x1f3fb; 制定明确可量化的目标&#xff0c;坚持默默的做事。 轻松上手MYSQL&#xff1a;从零开始构建你的数据库世界 &#x1f680; &#x1f680;欢迎来到My…

多维时序 | Matlab实现TCN-LSTM时间卷积长短期记忆神经网络多变量时间序列预测

多维时序 | Matlab实现TCN-LSTM时间卷积长短期记忆神经网络多变量时间序列预测 目录 多维时序 | Matlab实现TCN-LSTM时间卷积长短期记忆神经网络多变量时间序列预测预测效果基本介绍程序设计参考资料 预测效果 基本介绍 1.【Matlab实现TCN-LSTM时间卷积长短期记忆神经网络多变量…

轻松上手MYSQL:MYSQL初识(下)

​&#x1f308; 个人主页&#xff1a;danci_ &#x1f525; 系列专栏&#xff1a;《MYSQL入门》 &#x1f4aa;&#x1f3fb; 制定明确可量化的目标&#xff0c;坚持默默的做事。 轻松上手MYSQL&#xff1a;从零开始构建你的数据库世界 &#x1f680; &#x1f680;欢迎来到My…

稀疏数组思想

稀疏数组的处理方法是&#xff1a; 1)记录数组一共有几行几列&#xff0c;有多少个不同的值 2)思想&#xff1a;把具有不同值的元素的行列及值记录在一个小规模的数组中&#xff0c;从而缩小程序的规模 例如下面原数组对应稀疏数组&#xff1a;

uni-starter的微信登录拿不到登录者的昵称,头像,手机号问题记录

uni-starter的微信登录竟然拿不到登录者的昵称&#xff0c;头像&#xff0c;手机号 获取手机号的方法在另外一篇文章中&#xff0c;需要认证&#xff0c;需要有营业执照 uni.login({"provider": type,"onlyAuthorize": true,// #ifdef APP"univerif…