海量数据处理(面试)

海量数据

1、从大量的URL中找出相同的URL

解法:

分治法:

  • 如果是单个很大的文件,直接划分文件,按特定大小划分,然后多线程,用map对各个文件进行统计。

  • 如果是两个很大的文件,a和b。通过遍历a文件,对每个URL进行:i=Hash(URL)%500(500为文件个数,可以为其他的值)。将该URL写入到Ai文件。对b文件也是同样的操作。然后对500个文件对【Ai, Bi】。遍历Ai文件,URL用set记录。遍历Bi文件,如果URL存在就是a、b都存在的URL。Ai、Bj中不可能存在相同的URL。

前缀树:

  • 单个文件:前缀树也是可以的。第一次就创建前缀树节点。后面就记录虫回复的URL。
  • 两个文件:对a文件先进行遍历,建立前缀树。然后对b文件遍历,如果URL在前缀树中。就记录为两个文件的相同的URL。

记:

分治法:hash划分小文件,对小文件处理。

前缀树。

2、从大量数据中找出高频词

问题描述:

一个大小为1GB的文件,文件里每一行是一个单词,每个单词16B,内存大小限制是1MB。找出频率最高的前100个单词。

解法:

  • 遍历文件中所有记录,用map记录。然后遍历map,用大小为100的小根堆筛选出TOP100。
  • 前缀树:节点值是单词的频次。然后在加上小根堆。
  • 分支法:Hash划分为多个小文件,遍历小文件进行map记录。小根堆。

3、找出访问某网站最多的ip

问题描述:

现有海量日志数据保存在一个超大文件中,文件无法直接读入内存,求其中某天访问某个网站次数最多的那个ip。

解法:

先提取日志中某天访问某个网站的全部ip到某一个文件file。接下来就是求“求出现次数最多的ip”。

  • 前缀树:遍历file,一边建立前缀树,一边记录最大值,以及对应ip。
  • 分治法:hash划分为多个小文件,i = HASH(ip) % num。这样相同的ip必然落在同一个文件中。遍历每个小文件,用map记录,再用小顶堆筛选TOP K

4、在海量数据中找出不重复的整数

问题描述:

在2.5亿个整数中找不重复的整数,内存不足以容纳这些整数。

解法:

  • 分支法:划分小文件,用set找出不重复的整数,合并子结果。

  • 位图法:每个数有三种状态(00:没有出现过,01:出现过一次,10:出现过两次),2^32*2bi = 2^33 bit = 1GB。

5、在海量数据中判断一个数是否存在

问题描述:

给定40亿个无序unsigned int,快速判断某个数字是否在这40亿个数字中

解法:

位图法,unsigned int范围是[0, 1 << 32),则需要 1 << 32 ≈ 512MB。

遍历所有数字建立位图,可以用多线程加速,无需加锁。

unsigned int bitmap[16] [11]. 一个unsigned int的高16位确定数组的第一维度,次11位确定数组的第二维度,最低5位确定unsigned int中那一位置为一。

6、查询最热门的查询串?

解法

  • 划分小文件,unorderded_map统计小文件单词出现次数,然后小顶堆求topK
  • 前缀树+小顶堆

7、统计不同电话号码的个数

一个电话号码11位,可以用一个unsigned long long记录。问题转化为求不重复的整数的个数。

  • set
  • 位图

8、求5亿个数中的中位数

解法:

  • (内存能容纳全部数字的情况下)双堆法:一个最大堆,一个最小堆
  • 分支法:顺序读取5亿个数字,按照二进制的最高位是否为1划分为两部分。然后按照二进制的次高位继续划分。

9、如何按照query的频次排序

如果重复度较大,可以选择unordered_map

否则,内存则无法承受,先hash划分为小文件,记录频次,再对小文件频次排序,之后再归并排序。

10、Top K

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/47992.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何在Linux上安装配置Nexus私有仓库

在Linux上安装和配置Nexus私有仓库需要以下步骤&#xff1a; 下载Nexus Repository Manager&#xff1a; 首先&#xff0c;访问Sonatype Nexus官方网站&#xff08;https://www.sonatype.com/nexus-repository-oss&#xff09;并下载适用于Linux的最新版本的Nexus Repository M…

系统架构设计师教程 第4章 信息安全技术基础知识-4.3 信息安全系统的组成框架4.4 信息加解密技术-解读

系统架构设计师教程 第4章 信息安全技术基础知识-4.3 信息安全系统的组成框架 4.3 信息安全系统的组成框架4.3.1 技术体系4.3.1.1 基础安全设备4.3.1.2 计算机网络安全4.3.1.3 操作系统安全4.3.1.4 数据库安全4.3.1.5 终端安全设备4.3.2 组织机构体系4.3.3 管理体系4.4 信息加…

redis命令超详细

redis数据结构介绍 redis是一个key-value的数据库&#xff0c;key一般是String类型&#xff0c;但是value的类型有很多&#xff1a; 基本类型&#xff1a;String,Hash,List,Set,SortedSet(可排序的不能重复的集合) 特殊类型&#xff1a;GEO,BitMap,HyperLog等 文档官网&…

使用编译器指令将此函数定位在指定地址处

#include <stdio.h> // 使用编译器指令将此函数定位在0x08001000地址处 void my_function() attribute((section(“.ARM.__at_0x08001000”))); void my_function() { printf(“Function located at 0x08001000\n”); } int main() { my_function(); return 0; }

emr部署hive并适配达梦数据库

作者&#xff1a;振鹭 一、达梦 用户、数据库初始化 1、创建hive的元数据库 create tablespace hive_meta datafile /dm8/data/DAMENG/hive_meta.dbf size 100 autoextend on next 1 maxsize 2048;2、创建数据库的用户 create user hive identified by "hive12345&quo…

Android --- 广播

广播是什么&#xff1f; 一种相互通信&#xff0c;传递信息的机制&#xff0c;组件内、进程间&#xff08;App之间&#xff09; 如何使用广播&#xff1f; 组成部分 发送者-发送广播 与启动其他四大组件一样&#xff0c;广播发送也是使用intent发送。 设置action&#xff…

如何在Ubuntu上安装并启动SSH服务(Windows连接)

在日常的开发和管理工作中&#xff0c;通过SSH&#xff08;Secure Shell&#xff09;连接到远程服务器是一个非常常见的需求。如果你在尝试通过SSH连接到你的Ubuntu系统时遇到了问题&#xff0c;可能是因为SSH服务未安装或未正确配置。本文将介绍如何在Ubuntu上安装并启动SSH服…

高效工作流:用Mermaid绘制你的专属流程图;如何在Vue3中导入mermaid绘制流程图

目录 高效工作流&#xff1a;用Mermaid绘制你的专属流程图 一、流程图的使用场景 1.1、流程图flowChart 1.2、使用场景 二、如何使用mermaid画出优雅的流程图 2.1、流程图添加图名 2.2、定义图类型与方向 2.3、节点形状定义 2.3.1、规定语法 2.3.2、不同节点案例 2.…

背包问题模板

2. 01背包问题 - AcWing题库 #include<bits/stdc.h> using namespace std; const int N1010; int f[N]; int v[N],w[N];int main() {int n,m;cin>>n>>m;for(int i1;i<n;i){cin>>v[i]>>w[i];}for(int i1;i<n;i)for(int jm;j>v[i];j--)…

Unity扩展 UI线段绘制组件——UI上的LineRenderer

原理&#xff1a; 利用 Graphic 类重写 OnPopulateMesh 方法类绘制自定义顶点的面片从而组成一条线。 MaskableGraphic 类继承自 Graphic&#xff0c;并且可以实现“可遮罩图形”&#xff0c;方便在列表中使用。 绘制图形API&#xff1a; // 添加顶点&#xff0c;第一个添加…

golang 字符编码 gbk/gb2312 utf8编码相互转换,判断字符是否gbk编码函数, 字符编码转换基础原理解析, golang默认编码utf8

虽然golang里面的默认编码都是统一的unicode utf8编码&#xff0c; 但是我们在调用外部系统提供的api时&#xff0c;就可能会遇到别人的接口提供的编码非 utf8编码&#xff0c;而是gbk/gb2312编码&#xff0c; 这时候我们就必须要将别人的gbk编码转换为go语言里面的默认编码ut…

2024年7月22日(nfs samba)

一、webserver 服务器&#xff1a;作用是发布nginx的web项目 1、安装nginx&#xff08;只下载不安装&#xff09; [rootweb_server ~]# yum -y install --downloadonly --downloaddir./soft/ nginx 2、配置一个本地的nginx仓库 [rootweb_server ~]# yum -y install createrepo…

45、PHP 实现滑动窗口的最大值

题目&#xff1a; PHP 实现滑动窗口的最大值 描述&#xff1a; 给定一个数组和滑动窗口的大小&#xff0c;找出所有滑动窗口里数值的最大值。 例如&#xff1a; 如果输入数组{2,3,4,2,6,2,5,1}及滑动窗口的大小3&#xff0c; 那么一共存在6个滑动窗口&#xff0c; 他们的最大值…

微服务

微服务架构是一种设计方法&#xff0c;它将应用程序划分为一组独立的、可互相调用的服务&#xff0c;每个服务对应一个具体的业务功能。以下是微服务的一些关键知识点总结&#xff1a; 1. 微服务的基本概念 服务组件化&#xff1a;将应用程序分解为多个小的、独立的组件&…

基于vue3 + vite产生的 TypeError: Failed to fetch dynamically imported module

具体参考这篇衔接&#xff1a; Vue3报错&#xff1a;Failed to fetch dynamically imported module-CSDN博客 反正挺扯淡的&#xff0c;错误来源于基于ry-vue-plus来进行二次开发的时候遇到的问题。 错误起因 我创建了一个广告管理页面。然后发现访问一直在加载中。报的是这样…

昇思MindSpore 应用学习-K近邻算法实现红酒聚类-CSDN

K近邻算法实现红酒聚类-AI代码解析 本实验主要介绍使用MindSpore在部分wine数据集上进行KNN实验。 1、实验目的 了解KNN的基本概念&#xff1b;了解如何使用MindSpore进行KNN实验。 2、K近邻算法原理介绍 K近邻算法&#xff08;K-Nearest-Neighbor, KNN&#xff09;是一种…

立创梁山派--移植开源的SFUD万能的串行 Flash 通用驱动库

SFUD是什么 关于SFUD库的介绍&#xff0c;其开源链接(gitee,github)已经详细的阐述了. 这里是截取自它的一部分介绍&#xff1a; SFUD 是一款开源的串行 SPI Flash 通用驱动库。由于现有市面的串行 Flash 种类居多&#xff0c;各个 Flash 的规格及命令存在差异&#xff0c; SF…

一次搞定!中级软件设计师备考通关秘籍

大家好&#xff0c;我是小欧&#xff01; 今天我们来聊聊软考这个话题。要是你准备参加计算机技术与软件专业技术资格&#xff08;软考&#xff09;&#xff0c;那么这篇文章就是为你量身定做的。话不多说&#xff0c;咱们直接进入正题。 什么是软考&#xff1f; 软考&#xf…

请你谈谈:spring bean的生命周期 - 阶段4:检查Aware相关接口

在Spring框架中&#xff0c;Aware 接口系列提供了一种机制&#xff0c;允许bean在初始化过程中感知到容器中的特定对象&#xff0c;如应用上下文&#xff08;ApplicationContext&#xff09;、Bean工厂&#xff08;BeanFactory&#xff09;等。如果你有一个用户自定义的对象&am…

OpenSNN今日快讯:新型 54 轴仿人机器人、中国知网 CNKI 宣布上线新版首页、手搓复现GPT-2最初完整版本

一、科技视频资讯 人工智能】手搓复现GPT-2最初完整版本 | Andrej Karpathy | 8张H100训练24小时 | 成本仅672美元 | llm.c | C/CUDA | AI成本会下降么&#xff08;2024.7.17&#xff09; 简介&#xff1a;OpenAI的创始成员、前研究科学家安德烈卡帕西Andrej Karpathy最近又开始…