【数据结构与算法】【算法思想】【算法应用】【排序查找搜索】并行

算法的目的就是为了提高代码执行的效率。当算法无法再继续优化的情况下,需要借助并行计算的处理思想对算法进行改造。

并行排序

假设要给大小为 8GB 的数据进行排序,最常用的是三种排序算法,归并排序、快速排序、堆排序,时间复杂度为 O(nlogn) 。从理论上讲,已经很难再从算法层面优化了。而利用并行的处理思想可以将执行效率提高很多倍。

第一种是对归并排序并行化处理

  • 将这8GB 的数据划分成 16 个小的数据集合,每个集合包含 500MB 的数据。
  • 用 16 个线程,并行地对这 16 个 500MB 的数据集合进行排序。
  • 16 个小集合分别排序完成之后,再将这 16 个有序集合合并。

第二种是对快速排序并行化处理

  • 将数据扫描一遍,找到数据所处的范围区间,在按从小到大划分成 16 个小区间。
  • 将 8GB 的数据划分到对应的16 个小区间中,启动 16 个线程,并行地进行排序。
  • 等到 16 个线程都执行结束后,得到的数据就是有序数据了。

对比这两种处理思路

  • 共同点:它们利用的都是分治的思想,对数据进行分片,然后并行处理。
  • 不同点:
    (1)第一种处理思路是,先随意地对数据分片,排序之后再合并。
    (2)第二种处理思路是,先对数据按照大小划分区间后再排序,排完序就不需要再处理了。
  • 这个跟归并和快排的区别如出一辙。

并行查找

  散列表是一种非常适合快速查找的数据结构。

弊端:

  • 如果给动态数据构建索引,数据不断加入会使散列表的装载因子越来越大
  • 为了保证散列表性能不下降,就需要对散列表进行动态扩容
  • 对巨大的散列表进行动态扩容,不仅比较耗时,还比较消耗内存
    优化:
  • 实际上可以将数据随机分割成 k 份(比如 16 份),每份中的数据只有原来的 1/k
  • 然后针对这 k 个小数据集合分别构建散列表。这样,散列表的维护成本就变低了
  • 当某个小散列表的装载因子过大的时,可以单独对这个散列表进行扩容,而其他散列表不需要进行扩容。
  • 当要查找数据时,通过 16 个线程并行地在这16 个散列表中查找数据。这样的查找性能,比起一个大散列表的做法,也并不会下降,反倒有可能提高。
  • 当往散列表中添加数据时,可以将新数据放入装载因子最小的散列表中,这样也有助于减少散列冲突。

假设有 2GB 的数据,放到 16 个散列表中,每个散列表中的数据大约是 150MB。当某个散列表需要扩容的时候,我们只需要额外增加 150*0.5=75MB 的内存(假设还是扩容到原来的 1.5 倍)。不管从扩容的执行效率还是内存的利用率上,这种多个小散列表的处理方法,都要比大散列表高效

并行字符串匹配

在文本中查找某个关键词可以通过字符串匹配算法来实现,字符串匹配算法有 KMP、BM、RK、BF 等

如果处理的是超级大的文本,可以把大的文本,分割成 k 个小文本。假设 k 是 16,就启动 16 个线程,并行地在这 16 个小文本中查找关键词,这样整个查找的性能就提高了 16 倍

当长度m的待匹配字符串被分割后,可以获取前一段长度为m的尾部和长度为m的当前段的头部组合成2m长的自费赴川进行匹配。

并行搜索

搜索算法有:广度优先搜索、深度优先搜索、Dijkstra 最短路径算法、A* 启发式搜索算法。对于广度优先搜索算法,也可以将其改造成并行算法。

  • 广度优先搜索是一种逐层搜索的搜索策略
  • 基于当前这一层顶点,我们可以启动多个线程,并行地搜索下一层的顶点
  • 在代码实现方面,原来广度优先搜索的代码实现,是通过一个队列来记录已经遍历到但还没有扩展的顶点
  • 经过改造之后的并行广度优先搜索算法,需要利用两个队列来完成扩展顶点的工作(决多线程的并发问题)

【算法总结】

存储
实最底层的数据结构是<addr,value>,按照存储介质是否连续、是否显示制定key又可以分为数组、链表和hash,其中数组可以认为是一种<index,arr[index]>,链表是<p,*p>,然后在这基础之上衍生出了一维的线性表、栈、队列,散列表,二维的树(平衡二叉树、红黑树、跳表),三维的图,还有就是各种数据结构灵活组合的数据结构,这里的跳表可以算是组合类型的,但是它的使用范围很多,所以划到了二维中。
算法
排序、分治、贪心、回溯、动态规划

笔记整理来源: 王争 数据结构与算法之美

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/424693.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

第二十一期:干货盘点!推荐程序员使用的5款工具软件

说到程序员&#xff0c;大多数人脑袋里显现出来的第一个画面应当就是一个面容冷漠的人指尖在键盘上快速飞跃敲出一行行看不懂的字符就能轻而易举入侵别人的系统。然而想象很丰满&#xff0c;现实是很骨感的&#xff0c;大多数程序员都只是一个简单的码农。 作者&#xff1a;四…

207. Course Schedule

输入&#xff1a;课程数量n&#xff0c;每个课程的编号是0到n-1。课程学习的先后顺序用数组输入&#xff0c;例如[0,1]。要学习课程0&#xff0c;需要先学习课程1。 输出&#xff1a;如果可以学习完所有的课程&#xff0c;返回true&#xff0c;否则返回false。 分析&#xff1a…

第二十二期:New一个对象的时候发生了什么?

如你所知&#xff0c;Java是一门面向对象的编程语言。我们平常在写代码的时候也是在不停的操作各种对象&#xff0c;那么当你在写出User user new User();这样一行代码的时候&#xff0c;JVM都做了些什么呢&#xff1f; 作者&#xff1a;湖人总冠军 一、引言 如你所知&#…

Docker 第四章 访问容器

访问仓库 仓库&#xff08;Repository&#xff09;是集中存放镜像的地方。 一个容易混淆的概念是注册服务器&#xff08;Registry&#xff09;。实际上注册服务器是管理仓库的具体服务器&#xff0c;每个服务器上可以有多个仓库&#xff0c;而每个仓库下面有多个镜像。从这方面…

【数据结构与算法】【算法思想】Dijkstra算法

图的两种搜索算法&#xff0c;深度优先搜素和广度优先搜索。这两种算法主要是针对无权图的搜索算法。针对有权图&#xff0c;也就是图中的每条边都有一个权重&#xff0c;该如何计算两点之间的最短路径&#xff1f;最短路径算法&#xff08;Shortest Path Algorithm&#xff09…

第二十三期:程序员节Keep被曝突然裁员300多人,60%是开发和运营

社交健身App “Keep”突然裁员超300人&#xff0c;而且是在1024程序员节。此次被裁的人员中&#xff0c;大约有60%的人是开发和运营&#xff0c;补偿方案为N1。 作者&#xff1a;三言财经 10月24日脉脉有多条消息称&#xff0c;社交健身App “Keep”突然裁员超300人&#xff0…

542. 01 Matrix

输入&#xff1a;元素值为0或者1的矩阵。 输出&#xff1a; 每个元素距离0的最近距离是多少。 规则&#xff1a;相邻单元格的距离是1&#xff0c;相邻是指上下左右4个方向。 分析&#xff1a;这类似于学习课程安排&#xff0c;可以从元素值为0的单元开始沿4个方向遍历。matrix[…

C++学习第二天(打卡)

C new 可以很方便的 分配一段内存。 比如 int *test new int ;int n;cin>>n;int * test new int [n]; 可以实现动态分配内存&#xff0c;比c的malloc 简洁多了&#xff0c; 同样也能new 一个 结构体。总之挺方便的。 new 之后 不用了 要用delet free 内存 另外对空指…

【数据结构与算法】【算法思想】 A *搜索算法

算法解析 这是一个非常典型的搜索问题。人物的起点就是他当下所在的位置&#xff0c;终点就是鼠标点击的位置。我们需要在地图中&#xff0c;找一条从起点到终点的路径。这条路径要绕过地图中所有障碍物&#xff0c;并且看起来要是一种非常聪明的走法。所谓“聪明”&#xff0…

第二十四期:管理 | 成功领导远程IT团队的7个技巧

管理虚拟工作环境需要各种真实世界的技能和工具。以下是激发创造力和生产力的策略。为了在日益缺乏人才和竞争激烈的IT世界中取得成功&#xff0c;越来越多的企业开始依赖于地理上分散的劳动力。 作者&#xff1a;John Edwards 管理虚拟工作环境需要各种真实世界的技能和工具…

310. Minimum Height Trees

输入&#xff1a;包含n个节点的无向图。n&#xff1a;表示从0到n-1&#xff0c;n个节点。edges&#xff1a;int数组&#xff0c;是从一个节点到另外一个节点。但是没有方向。 输出&#xff1a;以哪些节点为根节点&#xff0c;具有最小高度的树&#xff0c;返回这些根节点。 规则…

计算获取最小值和最大值

比如&#xff0c;在下面的销售业绩中&#xff0c;统计业务员的销售业绩中最大值和最小值。 下面是业务数据&#xff1a; CREATE TABLE [dbo].[SalesPerformance]([ID] [int] IDENTITY(1,1) NOT NULL,[Salesman] NVARCHAR(30) NOT NULL,[OrderDate] [DATE] NULL,[Sell] DECIM…

第二十五期:知乎用Go替代Python,说明了啥

众所周知&#xff0c;知乎早在几年前就将推荐系统从 Python 转为了 Go。于是乎&#xff0c;一部分人就说 Go 比 Python 好&#xff0c;Go 和 Python 两大社区的相关开发人员为此也争论过不少&#xff0c;似乎&#xff0c;谁也没完全说服谁。 作者&#xff1a;hello架构 大概每…

[Leetcode][第106题][JAVA][ 从中序与后序遍历序列构造二叉树][分治][递归]

【问题描述】[中等] 【解答思路】 public class Solution {public TreeNode buildTree(int[] inorder, int[] postorder) {int inLen inorder.length;int postLen postorder.length;// 特判if (inLen ! postLen) {throw new RuntimeException("输入错误");}return …

Springboot初次学习

-- 介绍取自springboot中文文档 &#xff1a;https://www.breakyizhan.com/springboot/3032.html Spring Boot可以轻松创建可以运行的独立的&#xff0c;生产级的基于Spring的应用程序。我们对Spring平台和第三方库采取自己的看法&#xff0c;以便您尽可能轻松地使用本教程。大…

第二十六期:英国建设下一代IOT基础设施的历史机遇和挑战

无论未来物联网发展的中心在哪里&#xff0c;都会带来一笔巨大的财富。但许多地区面临的真正障碍是缺乏可用的光纤基础设施来形成回程网络。接下来看一看全光纤在英国的推广情况。 作者&#xff1a;风车云马编译 世界各地的市政当局都在呼吁制定支持5G的基础设施计划。这些基…

[Leetcode][第889题][JAVA][根据前序和后序遍历构造二叉树][分治][递归]

【问题描述】[中等] 【解答思路】 copyOfRange class Solution {public TreeNode constructFromPrePost(int[] pre, int[] post) {if(prenull || pre.length0) {return null;}return dfs(pre,post);}private TreeNode dfs(int[] pre,int[] post) {if(prenull || pre.length0)…

第二十七期:Deepfake视频正在快速传播,也许区块链能够阻止这波“瘟疫”

“假新闻”一词已经成为当下的热门话题&#xff0c;而Deepfake(即看似真实&#xff0c;但实为伪造的视频操纵行为)则会进一步加剧民众与媒体之间的不信任危机。 作者&#xff1a;佚名来源 “假新闻”一词已经成为当下的热门话题&#xff0c;而Deepfake(即看似真实&#xff0c;…

POJ 1276 完全背包

Sample Input 735 3 4 125 6 5 3 350 633 4 500 30 6 100 1 5 0 1 735 0 0 3 10 100 10 50 10 10 Sample Output 735 630 0 0题意&#xff1a;你的银行卡里有 cash 元&#xff0c;而ATM机里有 n 种面值的钱&#xff0c;n行每种钱的数量和面值。  问 最多能从这台AT…

[Leetcode][第117题][JAVA][填充每个节点的下一个右侧节点指针][BFS]

【问题描述】[中等] 【解答思路】 1. 层次遍历 public Node connect(Node root) {if (root null)return root;Queue<Node> queue new LinkedList<>();queue.add(root);while (!queue.isEmpty()) {//每一层的数量int levelCount queue.size();//前一个节点Node …