【经典面试题目】--从1百万(一亿)的数据中找top100大的数

目录

  • 概述
    • 下面我们看具体方法:
      • 方法一:基于quicksort实现的原理如下
      • 方法二:minHeap(小顶堆实现)
    • 问题
    • 总结:

概述

一种做法是我们直接进行一个堆排序,或者快排,然后打印前100个即可,但是这样子比较耗时间;
平均下来快排都在9000多ms,而堆排就更大,32s多;所以我们不能简单粗暴的直接快排或者堆排,要对其进行相对的优化;(这种做法不可取,要优化!!!)


下面我们看具体方法:

方法一:基于quicksort实现的原理如下

(ps:前提是快排是要懂得,不懂得可以请各位移步去看我这一篇博文:快速排序)

1. 假设数组为 array[N] (N = 1 亿),首先利用一次quicksort的原理把array分成两个部分,左边部分比基准值大, 右边部分比基准小。 得到基准值在整个数组中的位置,假设是 k.
2. 如果 k 比 99 大,原数组变成了 array [0, ...  k - 1], 然后在数组里找前 100 最大值。 (继续递归)
3. 如果 k 比 99 小, 原数组变成了 array [k + 1, ..., N ], 然后在数组里找前 100 - (k + 1) 最大值。(继续递归)
4. 如果 k == 99, 那么数组的前 100 个值一定是最大的。(退出)

代码部分:

//找出一亿数据里面的前100个  快排思路
//先进行一次快排  找到基准值排序后的位置 start,使得左边数全部大于它,右边数全部小于它
//然后对比 start与99的大小 因为数组从0开始的所以对比99
//  start>99的话,就从arr[0,start-1] 中找前100个最大的、
//  start<99的话,就从arr[start+1,end] 中找前100-(start+1)个最大的
//  start==99的话,那么数组的前 100 个值一定是最大的 (不用排序直接返回 因为只是要前100最大的,没有要求说对这100个数再进行排序)
public class FastTake100 {public static void quickSort(int[] arr, int left, int right, int k) {//1.一次快排找出基准值最后的位置:startif (left >= right) {return;}int start = left;int end = right;int num = arr[left];//以最左边为基准值while (start < end) {while (start < end && num >= arr[end]) {end--;}while (start < end && num <= arr[start]) {start++;}if (start < end) {int temp = arr[start];arr[start] = arr[end];arr[end] = temp;}}arr[left] = arr[start];arr[start] = num;//2.进行判断 然后继续递归if (start < k - 1) {//start<99的话,就从arr[start+1,right] 中找前100-(start+1)个最大的quickSort(arr, start + 1, right, k - start - 1);} else if (start > k - 1) {//start>99的话,就从arr[0,start-1] 中找前100个最大的quickSort(arr, 0, start - 1, k);} else {//start==99的话,那么数组的前 100 个值一定是最大的 直接返回即可return;}}public static void main(String[] args) {int[] arr = new int[100000000];for (int i = 0; i < arr.length; i++) {arr[i] = (int) (Math.random() * 100000000);}int k = 100;//开始时间long one = System.currentTimeMillis();quickSort(arr, 0, arr.length - 1, k);//结束时间long two = System.currentTimeMillis();//打印耗时System.out.println(two - one);//打印top100for (int i = 0; i < 100; i++) {System.out.println(arr[i]);}}
}

总结: 基于quicksort原理的方法运行时间不稳定(每次运行时间相差大);不管是固定中枢轴,还是中枢轴采用三数取中法,每次运行时间差距都挺大,30ms-1000ms不等。


方法二:minHeap(小顶堆实现)

最大堆 max-heap(大顶堆):每个节点的键值(key)都大于或等于其子节点键值
最小堆 min-heap(小顶堆):每个节点的键值(key)都小于或等于其子节点键值

# 当前节点 i:1.则其父节点: i/2 (因为/默认就是向下取整)或者(i-1) /22.两个孩子节点:2i+1;  2i+2;

有些小伙伴可能想到,既然是找top100,为什么不是用大顶堆来实现,而是用小顶堆呢?
在写之前,我也有这样的想法,带着疑惑我们来看下面的分析:
(ps:前提是堆排序是要懂得,不懂得可以请各位移步去看我这一篇博文:堆排序实现)

知道堆排序的具体步骤以及相应的代码已经看懂,会自己写出来后,我们来看看本题的分析:

  1. 先new一个100大小的数组 value[100];
  2. 然后我们直接把原始数组arr的前100个数初始化给value;(看清楚哦,前100个数是指:是0-99的下标的值,这里不对arr进行堆排序);
  3. 把value数组,进行小顶堆化,这样堆顶的元素value[0]就是最小的;
  4. 核心:我们 设 i 从k开始,到arr的长度结束;每次比较value[0]与arr[i]的的大小,只要arr[i] > value[0] ,我们就把arr[i] 赋值给value[0],此时堆顶元素就是一个比较大的元素,然后我们重新进行一次heapify(小顶堆化),再把堆顶置于最小,继续与arr[i]比较,重复上述过程直到遍历完整个arr数组;(每次都会把最小的元素替换掉)
  5. 遍历完以后,我们的value数组里存的就是 top100大的数字了;
  6. 打印value数组,就可以看到结果;

下面看代码:

import java.util.Random;
找出一亿数据里面的前100个  堆排思路 利用minHeap 小顶堆
public class HeapTake100 {public static int[] heapSort(int[] arr) {//new 一个数组存储top100的元素int[] value=new int[100];//初始化value数组for (int i = 0; i < 100; i++) {value[i]=arr[i];}//把value数组构建成小顶堆buildHeap(value);for (int i = 100; i <arr.length ; i++) {//若满足条件就赋值if (value[0]<arr[i]){value[0]=arr[i];//重新小顶堆化heapify(value,0,value.length);}}return value;}//从第一个非叶子节点开始 往上遍历建立堆public static void buildHeap(int[] arr) {//数组的长度/2 - 1 就是:第一个非零节点的位置int n=arr.length;for (int i = n / 2 - 1; i >= 0; i--) {heapify(arr, i, n);}}//heapify 真正用来调整堆的方法public static void heapify(int[] arr, int i, int len) {int left = 2 * i + 1;int right = 2 * i + 2;int max = i;if (left < len && arr[left] < arr[max]) {max = left;}if (right < len && arr[right] < arr[max]) {max = right;}if (max != i) {swap(arr, max, i);heapify(arr, max, len);}}//堆排序用来交换的方法public static void swap(int[] arr, int i, int j) {int temp = arr[i];arr[i] = arr[j];arr[j] = temp;}//执行的主函数public static void main(String[] args) {int[] arr = new int[100000000];for (int i = 0; i < arr.length; i++) {arr[i] = (int) (Math.random() * 100000000);}//计算消耗时间long t1=System.currentTimeMillis();int[] value=heapSort(arr);long t2=System.currentTimeMillis();System.out.println(t2-t1);//打印结果数组for (int i : value) {System.out.println(i);}}
}

问题


那么又有人问了:为什么不用大顶堆?

假如使用大顶堆,当value[0] < arr[i] 时候,我们替换,会发现value[0] 始终是整个堆里最大的,这样子操作,只是每次把value[0] 换了一个最大的,也就是最后只找到 top1大的元素;

-------当然实践出真知,各位可以自己去动手尝试一下写,然后看看要是改成大顶堆,每次用大顶堆最后一个元素进行比较交换,看看会会出现什么样的结果。

总结:

基于最小堆方法运行时间很稳定(每次运行时间相差很小 基本都是52ms左右);

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/625384.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

今天吃什么小游戏(基于Flask框架搭建的简单应用程序,用于随机选择午餐选项。代码分为两部分:Python部分和HTML模板部分)

今天吃什么 一个简单有趣的外卖点饭网站&#xff0c;不知道吃什么的时候&#xff0c;都可以用它自动决定你要吃的&#xff0c;包括各种烧烤、火锅、螺蛳粉、刀削面、小笼包、麦当劳等午餐全部都在内。点击开始它会随意调出不同的午餐&#xff0c;点击停止就会挑选一个你准备要吃…

【学习笔记】伯努利数

似乎是一篇又水又没啥用的博客。 Part 1 首先给出伯努利数 B n B_n Bn​的生成函数定义&#xff1a; x e x − 1 ∑ n 0 ∞ B n x n n ! \frac{x}{e^x-1}\sum_{n0}^{\infty}\frac{B_nx^n}{n!} ex−1x​n0∑∞​n!Bn​xn​ 伯努利数可以用来等幂求和。 定义 S m ( n ) ∑…

如何用ArcGIS制作城市用地适应性评价

01概述 “城市用地适宜性评价是城市总体规划的一项重要前期工作&#xff0c;它首先对工程地质、社会经济和生态环境等要素进行单项用地适宜性评价&#xff0c;然后用地图叠加技术根据每个因子所占权重生成综合的用地适宜性评价结果&#xff0c;俗称“千层饼模式”。 做用地适…

python实现文件批量分发

在Python中实现文件的批量分发通常涉及到文件的读取、网络通信以及目标系统上的文件写入。这里有几种方法来实现这一功能,但最常见的方法之一是使用FTP(文件传输协议)或SSH(安全外壳协议)。以下是使用Python通过SSH进行文件批量分发的一个基本示例。这里使用了paramiko库,…

git 删除 submodule 子模块的步骤

实验有效&#xff0c;这里删除了两个 submodule。 1, 执行删除 submodule mkdir tmp1 && cd tmp1 && git clone --recursive ssh://gitaaa.bbb.ccc.git \ && cd ccc/ && git checkout -b abranch_01 \ && git submodule deinit -f…

Oracle修改字段类型varchar2(2000)转为clob

【需求】 某表原采用nvarchar2(2000)字段记录log&#xff0c;但随着时间增长2000长度不够用了&#xff0c;于是决定将其修改为clob字段。 【注意点】 原有数据不能一删了之&#xff0c;必须原封不动带入新字段。 【思路】 首先将原字段重命名成&#xff0c;再创建新字段&am…

第28关 k8s监控实战之Prometheus(九)

大家好&#xff0c;我是博哥爱运维。早期我们经常用邮箱接收报警邮件&#xff0c;但是报警不及时&#xff0c;而且目前各云平台对邮件发送限制还比较严格&#xff0c;所以目前在生产中用得更为多的是基于webhook来转发报警内容到企业中用的聊天工具中&#xff0c;比如钉钉、企业…

2024年腾讯云新用户优惠云服务器价格多少?

腾讯云服务器租用价格表&#xff1a;轻量应用服务器2核2G3M价格62元一年、2核2G4M价格118元一年&#xff0c;540元三年、2核4G5M带宽218元一年&#xff0c;2核4G5M带宽756元三年、轻量4核8G12M服务器446元一年、646元15个月&#xff0c;云服务器CVM S5实例2核2G配置280.8元一年…

统计学-R语言-2.2

文章目录 前言导入.RData文件方式1方式2方式3 导入程序包方式一方式二 总结 前言 本篇文章是将上篇得软件安装完&#xff0c;对其部分功能进行介绍。 导入.RData文件 在我们日常练习时会有.RData文件导入&#xff0c;并对其进行分析&#xff0c;下面是两种方导入.RData文件。…

在windows11系统上利用docker搭建ubuntu记录

我的windows11系统上&#xff0c;之前已经安装好了window版本的docker&#xff0c;没有安装的小伙伴需要去安装一下。 下面直接记录安装linux的步骤&#xff1a; 一、创建linux容器 1、拉取镜像 docker pull ubuntu 2、查看镜像 docker images 3、创建容器 docker run --…

Java SE入门及基础(15)

Java 中的标号&#xff08;标签 label&#xff09; 1. 语法规则 标号名称 : 循环结构 2. 作用 标号的作用就是给代码添加一个标记&#xff0c;方便后面使用。通常应用在循环结构中&#xff0c;与break 语句配合使用 3. 应用场景 有如下菜单&#xff1a; 实现其中返回主菜…

RAG常见七大坑

论文题目&#xff1a;《Seven Failure Points When Engineering a Retrieval Augmented Generation System》 论文地址&#xff1a;https://arxiv.org/pdf/2401.05856.pdf 这篇论文主要探讨了构建检索增强生成系统&#xff08;Retrieval Augmented Generation, RAG&#xff09;…

idea写sql语句快捷键提醒,mapper注解开发,mybatis

第一步&#xff1a;注入SQL语言 1.显示上下文操作&#xff08;没有这个选项的话就选中sql然后直接alt回车快捷键&#xff09;2.注入语言或引用 3.mysql 第二步&#xff1a;配置MySQL数据库连接 1.首先点击侧边的数据库&#xff0c;再点击上面的加号 2.点击数据源&#xff…

C++——STL标准模板库——容器详解——set

一、基本概念 set容器是一种具备自动排序功能的集合&#xff0c;默认递增排序&#xff1b;元素无法直接修改&#xff0c;且不能重复&#xff1b;另一个版本叫做multiset&#xff0c;允许存在重复元素&#xff0c;其他功能和性质一样。 set容器底层结构一般为自平衡二叉搜索树…

低频信号发生器

前言 最近我快期末考试了&#xff0c;有点忙着复习。没时间写文章&#xff0c;不过学会了焊接 挺开心的所以买几套。 焊得怎么样这就是我们今天故事的主角“低频信号发生器”&#xff08;由于要用到所以这是购买链接&#xff09; 好&#xff0c;故事开始&#xff1a; 如何将…

手写一个starter来理解SpringBoot的自动装配

自动装配以及简单的解析源码 自动装配是指SpringBoot在启动的时候会自动的将系统中所需要的依赖注入进Spring容器中 我们可以点开SpringBootApplication这个注解来一探究竟 点开这个注解可以发现这些 我们点开SpringBootConfiguration这个注解 可以发现实际上SpringBootApp…

【网络取证篇】Windows终端无法使用ping命令解决方法

【网络取证篇】Windows终端无法使用ping命令解决方法 以Ping命令为例&#xff0c;最近遇到ping命令无法使用的情况&#xff0c;很多情况都是操作系统"环境变量"被改变或没有正确配置导致—【蘇小沐】 目录 1、实验环境&#xff08;一&#xff09;无法ping命令 &a…

Zabbix的多场景应用

1 zabbix更多用法 1.1 自动注册方式 zabbix自动发现 zabbix server服务端主动发现zappix agent客户端 1&#xff09;在【配置】-【自动发现】创建 发现规则&#xff0c;设置 IP范围 检查的键值system.uname 2&#xff09;在【配置】-【动作】-【发现动作】创建 动作&#x…

Leetcode1441.用栈操作构建数组

文章目录 题目原题链接思路代码 题目 给你一个数组 target 和一个整数 n。每次迭代&#xff0c;需要从 list { 1 , 2 , 3 …, n } 中依次读取一个数字。 请使用下述操作来构建目标数组 target &#xff1a; “Push”&#xff1a;从 list 中读取一个新元素&#xff0c; 并将其…

【面试突击】Spring 面试实战

&#x1f308;&#x1f308;&#x1f308;&#x1f308;&#x1f308;&#x1f308;&#x1f308;&#x1f308; 欢迎关注公众号&#xff08;通过文章导读关注&#xff1a;【11来了】&#xff09;&#xff0c;及时收到 AI 前沿项目工具及新技术 的推送 发送 资料 可领取 深入理…