深入了解计算机系统——利用循环展开对程序的优化

系列文章:
操作系统详解(1)——操作系统的作用
操作系统详解(2)——异常处理(Exception)
操作系统详解(3)——进程、并发和并行
操作系统详解(4)——进程控制(fork, waitpid, sleep, execve)
操作系统详解(5)——信号(Signal)

文章目录

  • 一些概念
    • CPE
  • 初步优化
    • 消除不必要的函数调用
    • 消除不必要的内存引用
  • 基于处理器机制的深度优化
    • 现代处理器
      • 超标量(Superscalar)
      • 乱序执行
      • 处理器结构
      • 寄存器重命名
      • 多核处理器
    • 数据流图
    • 分析
    • 促进并发(parallelism)
      • n*1 循环展开
      • n*n循环展开
      • 吞吐量界限(Throughout)
      • 不同的运算结合
  • 优化的限制因素
    • 寄存器溢出
    • 分支预测

如何优化一个程序的运行速度?可以从以下几个方面着手:

  • 算法
  • 数据结构
  • 执行的步骤
  • 循环

本文将主要从计算机系统底层方面,探讨如何降低运行时间。

一些概念

CPE

即Cycles Per Element, 运行每一个操作需要的时钟周期

T = CPE*n + Overhead
n: 操作数量
overhead: 其它操作时延

初步优化

以下是一个粗糙的c程序代码:

 void combine1(vec_ptr v, data_t *dest)
{long i;*dest = IDENT;for (i = 0; i < vec_length(v); i++) {data_t val;get_vec_element(v, i, &val);*dest = *dest OP val;}
}
/*
v: 一个向量
dest: 存储执行结果
OP: 运算符, 可以是+, *等
vec_length: 返回向量长度
get_vec_element: 范围下标为i的元素, 存放在val中
IDENT: 单位元, 加法就是0, 乘法就是1
*/

CPE如下:(Element为执行一次循环)
image.png

可见gcc自带的优化也能对性能起到很大影响.本例中是O1优化.

消除不必要的函数调用

void combine2(vec_ptr v, data_t *dest)
{long i;long length = vec_length(v);*dest = IDENT;for (i = 0; i < length; i++) {data_t val;get_vec_element(v, i, &val);*dest = *dest OP val;}
}

由于v的长度是定长的, 不会被循环改变, 所以可以在循环前面先得到, 这样就不用每次循环都调用一次了.

image.png

在本例中优化幅度很小.但是由于length()的时间复杂度是O(n), 当v的长度很大的时候, 循环执行n次, 时间复杂度为O(n^2), 增长速度远远大于O(n)

消除不必要的内存引用

假设v结构体中存储数据的部分是一个数组, 我们用get_vec_start函数能够获取v的指向数组开头的指针, 那么可以得到一下代码:

void combine3(vec_ptr v, data_t *dest)
{long i;long length = vec_length(v);data_t *data = get_vec_start(v);*dest = IDENT;for ( i = 0 ; i < length ; i++ ) {*dest  = *dest OP data[i] ;
}

image.png

虽然消除了函数调用, 由于compiler已经帮我们做了很多优化, 所以转成汇编代码后效率并不会差距很大.

我们看一下汇编代码:

  combine3: data_t = double, OP = *data+length in %rax, data+i in %rdx, dest in %rbx1   .L17:            loop:
2   vmovsd   (%rbx),  %xmm0   Read product from dest
3   vmulsd   (%rdx), %xmm0,  %xmm0 Multiply product by data[i]
4   vmovsd   %xmm0,  (%rbx)   Store product at dest
5   addq   $8,  %rdx   Increment data+i
6   cmpq   %rax,  %rdx   Compare to data+length
7   jne   .L17   If !=, goto loop

我们发现, 每一次都要先从内存中取出(%rbx), 即*dest中存储的值, 运算以后还要写回(%rbx), 如果将代码改为下面:

void combine4(vec_ptr v, data_t *dest)
{long i;long length = vec_length(v);data_t *data = get_vec_start(v);data_t  acc = IDENT;for (i = 0; i < length; i++)acc = acc OP data[i];*dest = acc;
}combine4: data_t = double, OP = *data+length in %rax, data+i in %rdx, limit in %rbp, acc in %xmm01   .L25:   loop:
2   vmulsd   (%rdx), %xmm0, %xmm0 Multiply acc by data[i]
3   addq   $8, %rdx       Increment data+i
4   cmpq   %rax, %rdx       Compare to data+length
5   jne   .L25       If !=, goto loop
  • 运算结果存储在寄存器中
  • 避免循环一次执行一组额外的读写
  • 最后再写入内存即可

这是由于读写涉及内存访问, 而这比访问寄存器慢数万倍.
image.png

这难道就是优化的极限了吗?

基于处理器机制的深度优化

现代处理器

超标量(Superscalar)

能够实现指令(instruction)层面的并行执行, 一个clock cycle执行多条指令

乱序执行

(只要不影响程序执行结果), 指令的执行顺序可以与汇编语句的顺序不同.

处理器结构

这部分的实际设计思想比较复杂, 本文只是简要提及几个重要概念.

image.png
微操作Instruction Decode Unit 读取程序的指令,并将它们分解为更细的基础操作。
比如说,一条汇编语句addq %rax, 8(%rdx)可以被分解为:

load 8(%rdx) -> t1
addq %rax, t1 -> t2
store t2, 8(%rdx)

其中load, addq(运算), store就是基础的操作。

寄存器重命名

addq $8, %rdx 被翻译为
addq $8, %rdx.0 -> %rdx.1
寄存器名后面的 .t 表示一个标签,用来标识操作的执行顺序。

多核处理器

在上图中, Execution UnitInstruction Control Unit 得到需要执行的操作,在么一个时钟周期能执行一组操作。

现代的处理器都有多个处理单元。以Intel i7处理器为例,其处理单元如下:
image.png
image.png

下面解释一下几个名词的意思:
Latency: 就是执行一条操作需要的时间。比如上表中的第一行第一列,Integer Addition的Latency是1,说明执行1条整数加法需要1个时钟周期。而执行一次浮点数乘法需要5个时钟周期。

Issue: 中文又译作“发射”时间。比方说,一个整数乘法需要3个时钟周期,但如果用pipeline执行,每一个clock都能“发射”一条微指令,这样每一个clock都能执行一条指令.

Capacity: 容量,即处理器有几个该运算的处理单元。从上图可知,有4个Integer arithmetic Unit (整数运算单元),故Capacity为4.

数据流图

Data-Flow Graphs, 用于可视化程序的数据依赖.

以combie4为例 (data_t ) = float, OP = *

void combine4(vec_ptr v, data_t *dest)
{long i;long length = vec_length(v);data_t *data = get_vec_start(v);data_t x = IDENT;for (i = 0; i < length; i++)x = x OP data[i];*dest = x;
}

汇编:

.L25:  # Loop:
vmulsd (%rdx),%xmm0,%xmm0  # x *= data[i]
addq $8, %rdx  # Increment data+i
cmpq %rax,%rdx  # Comp to data+len
jne .L25  # if !=, goto Loop

微指令:

load (%rdx.0)       -> t.1
mulq t.1, %xmm0.0   -> %xmm0.1
addq $8, %rdx.0     -> %rdx.1
cmpq %rax, %rdx.1   -> cc.1
jne-taken cc.1

image.png

更清晰的图:

image.png

此图显示出,只有当load执行以后,mul才能执行,因为mul对load有数据依赖.
当有多个循环时,可简化为如下:
image.png

分析

上图中有两条数据依赖的路径:

  • x(%xmm)的更新,mul操作
  • i(%rdx)的更新,add操作

关键路径 :决定着所有操作时延上线的道路。

  • 浮点数乘法的时延为5
  • 整数加法的时延为1
// 核心问题抽象
for(i = 0; i < length; i++)x = x * data[i];

所以一次循环最少也需要5个clock才能执行完,所以理论上combine4的latency就是5.

我们回顾一下combine4优化的结果:
image.png
正符合理论结果!
CPE正好就是微操作的latency.

image.png
image.png

当然细心的读者可能发现了,为什么整数乘法的结果是1.27而不是1呢?
这种数据流表示只是为latency提供了一个下限。实际情况更为复杂:

  • 有多少功能模块可用。比方说unit0和unit1不光执行整数加法,还执行浮点运算、除法运算等等。所以并不是每一个clock都能加载整数加法运算。
  • 功能模块传递的数据量也是有上限的。

促进并发(parallelism)

以上我们虽然了解了限制运行速度的底层原理,但还是无法进一步优化代码。可以注意到Issue的值都为1. 我们可以将操作的时延降到1或更低吗?
这就需要将多条指令同时执行,而不是只能一个等着另一个。

n*1 循环展开

首先来看一下这个代码:

void combine5(vec_ptr v, int *dest)
{int i;int length = vec_length(v);int limit = length - 1;data_t *data = get_vec_start(v);data_t acc = IDENT;/* combine 2 elements at a time */for (i = 0; i < limit; i+=2)acc = acc OPER data[i] OPER data[i+1];/* finish any remaining elements */for (; i < length; i++)acc = acc OPER data[i];*dest = acc ;
}

在for循环中一次执行了两次操作。 这种方法叫做 Loop Unrolling , 译为 循环展开 . 在本例中执行2个运算,有1个独立的data链,所以叫做 2*1循环展开.

3*1循环展开也类似,作出相应的数据流图:

image.png

load操作不存在依赖关系(因为load不会改变data数组的内容),所以肯定可以并发运行。

关键路径:

  • integer add: 时延为1
  • double mul: 时延为5

图中加黑的是关键路径,可见虽然做了循环展开,latency bound仍然不变,平均执行一次操作仍需要5个cycles.

image.png

我们看到对于整数加法,CPE 有所改进,得到的延迟界限为 1.00。会有这样的结果 是得益于减少了循环开销操作。

但是其它情况并没有改良。

n*n循环展开

要想进一步降低时延,就要让两次mul操作之间不存在数据依赖,也就是让两次mul分开并发地执行。
见代码:

void combine6(vec_ptr v, int *dest)
{int i;int length = vec_length(v), limit = length-1;data_t *data = get_vec_start(v);data_t acc0 = IDENT, acc1 = IDENT;/* combine 2 elements at a time */for (i = 0; i < limit; i+=2){acc0 = acc0 OPER data[i];acc1 = acc1 OPER data[i+1];}/* finish any remaining elements */for (; i < length; i++)acc0 = acc0 OPER data[i];*dest = acc0 OPER acc1;
}

上面用了两个变量acc0, acc1分别来存储data[i] & data[i+1] 的运算结果。等到循环结束后再合并。这样两个循环内的乘法不存在 data dependency.

一次循环有两次操作,有2个独立的操作,所以是 2*2循环展开

image.png

image.png

image.png

我们成功突破了时延的下限!
除了整数加法以外,其余操作都降低了一般的时延。
那么优化的极限是什么呢?

吞吐量界限(Throughout)

image.png

注意到Capacity, 而这正是处理单元的数量。理论上,随着循环展开数量的不断增加,操作的时延应该会不断逼近Issue. 而如果有两个处理单元的话,那么1个lock里就能执行两个操作,这使得时延变为0.5!而最优的时延值就是 Throughout.

不同的运算结合

void combine7(vec_ptr v, int *dest)
{int i;int length = vec_length(v), limit = length-1;data_t *data = get_vec_start(v);data_t acc = IDENT;/* combine 2 elements at a time */for (i = 0; i < limit; i+=2){acc = acc OPER (data[i] OPER data[i+1]);}/* finish any remaining elements */for (; i < length; i++)acc = acc OPER data[i];*dest = acc ;
}

这个函数和combine5的唯一区别就是这一句:
acc = acc OPER (data[i] OPER data[i+1]);

这使得两个乘法不存在数据依赖:

image.png
image.png

image.png

优化的限制因素

寄存器溢出

当寄存器不够用时,会用栈作为存储。
所以过多的循环展开反而导致速度下降。

分支预测

由于追求最高的效率,所以远在分支预测的结果出来前,就要加载下面更多的操作进行执行。所以一旦发现预测错误,就要撤销所有已经做的操作。
一般来说,Core i7 芯片由于一次预测错误将导致约19个时钟周期。
不过正常来说,分支预测都不位于关键路径上,不用特别担心。

不过下面是一个很明显的栗子,显示了预测错误惩罚的结果:
image.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/828117.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

python爬虫之爬取文本内容(2)

一、基本案例 #注意&#xff1a;需要将requests包换成2.27.1 #中文编码gbk也可能是utf-8 import requests #from bs4 import BeautifulSoupif __name__ __main__:url https://www.biqg.cc/book/6909/1.html#目标访问网站url#伪装头信息的引入header {"User-Agent"…

Golang | Leetcode Golang题解之第41题缺失的第一个正数

题目&#xff1a; 题解&#xff1a; func firstMissingPositive(nums []int) int {n : len(nums)for i : 0; i < n; i {for nums[i] > 0 && nums[i] < n && nums[nums[i]-1] ! nums[i] {nums[nums[i]-1], nums[i] nums[i], nums[nums[i]-1]}}for i …

Redis入门到通关之Redis实现Session共享

文章目录 ☃️前期概要☃️基于Session实现登录方案☃️现有方案存在的问题☃️Redis代替Session的业务流程❄️❄️设计key的结构❄️❄️设计key的具体细节❄️❄️整体访问流程 欢迎来到 请回答1024 的博客 &#x1f353;&#x1f353;&#x1f353;欢迎来到 请回答1024的博…

Windows 10 安装配置WSL2(Ubuntu 20.04)教程

Windows 10 安装配置WSL2&#xff08;Ubuntu 20.04&#xff09;教程 一、WSL简介 WSL&#xff08;Windows Subsystem for Linux&#xff09;是一个兼容层&#xff0c;允许在Windows 10上原生运行Linux二进制可执行文件。 二、安装WSL2 3.1 传统手动安装 更新系统&#xff…

OFDM同步技术

文章目录 前言一、OFDM 同步技术二、MATLAB 仿真1、STO 估计技术①、核心源码②、仿真结果 2、CFO 估计技术①、核心源码②、仿真结果 三、资源自取 前言 本文对 OFDM 同步技术以思维导图的形式呈现&#xff0c;有关仿真部分进行了讲解实现。 一、OFDM 同步技术 OFDM 同步技术…

前端工程化02-复习jQuery当中的插件开发

2、jQuery插件开发 在我们开发的时候、有时候jQuery提供的方法并不能满足我们的需求&#xff0c;如果我们想给jQuery扩展一些其他的方法&#xff0c;那这种情况下&#xff0c;可能会需要写一个插件 jQurey官网&#xff1a;jquery.com 例如一些、图片懒加载插件、滚动的插件、…

阿里云效中的Story Point是什么,代表的是什么意思,该怎么填

文章目录 Story Point是什么一个合理的Point应该能让团队的其他成员相对准确的评估任务难度根据自己对任务难度的分析对比团队Point标准评估一个任务是多少Point点时建议三个人评估 这是我阅读并参考的文章 中文翻译Story Point 故事 点&#xff08;观点&#xff0c;论点&#…

GDPU unity游戏开发 碰撞体与关节

让你设计的角色跑起来吧&#xff0c;可以是动画&#xff0c;也可以是碰撞器的运动。 运动小车 找到小车素材&#xff0c;导入到层级面板。然后可以新建一个地面让小车在上面运动&#xff0c;新建一个方块当障碍物。 摆放好后&#xff0c;要加组件。记住&#xff0c;在unity中运…

多商家AI智能名片商城系统(开源版)——构建高效数字化商业新生态

一、项目概述 1、项目背景 1&#xff09;起源 随着数字化时代的快速发展&#xff0c;传统名片和商城系统已经难以满足企业日益增长的需求。商家需要更高效、更智能的方式来展示自己的产品和服务&#xff0c;与消费者进行互动和交易。同时&#xff0c;开源技术的普及也为开发…

HTML的学习-通过创建相册WEB学习HTML-第二部分

文章目录 二、学习开始3.6、form元素示例&#xff1a;添加form元素示例&#xff1a;action属性添加到form属性中 3.7、input元素示例&#xff1a;在input属性中添加参数 3.8、button元素示例&#xff1a;在button中添加type元素示例&#xff1a;定义单选按钮radio 3.9、id属性示…

easyExcel快速入门

目录 &#x1f9c2;1.简单介绍 &#x1f32d;2.快速入门 &#x1f953;1.导入依赖 &#x1f37f;2.导出到excel &#x1f38f;3.读入数据 &#x1f389;4.下载 1.简单介绍 传统操作Excel大多都是利用Apach POl进行操作的,但是POI框架并不完善,使用过程非常繁琐且有较多…

盛水最多的容器 ---- 双指针

题目链接 题目: 分析: 最大容积 即使就是最大面积, 长为下标之差, 宽为两下标对应值的最小值解法一: 暴力枚举: 将每两个数之间的面积都求出来, 找最大值, 时间复杂度较高解法二: 假设我们的数组是[6, 2, 5, 4], 我们先假设最左边和最右边, 即6 和 4 之间是最大面积长a*宽b此…

nginx配置ip_hash负载均衡策略

一、nginx配置ip_hash负载均衡策略 nginx默认的负载均衡策略为轮询&#xff0c;某些场景需要使用ip_hash负载策略&#xff0c;即&#xff1a;同一个ip地址&#xff0c;永远访问nginx后面同一台tomcat。配置示例如下&#xff0c;主要是设置ip_hash&#xff1a; upstream www.ab…

Pandas数据分析小技巧

Pandas数据分析小技巧&#xff1a;提升数据处理效率与准确性的秘诀 Pandas是一个强大的Python数据分析库&#xff0c;它提供了快速、灵活且富有表现力的数据结构&#xff0c;使得数据清洗、转换、分析等操作变得简单而高效。本文将介绍一些Pandas数据分析的小技巧&#xff0c;…

三招教你成为朋友圈运营高手,赶紧get起来!

朋友圈作为一个重要的营销推广渠道&#xff0c;是能够为我们带来很多收益的。今天就给大家分享朋友圈运营的三个技巧&#xff0c;快快Get起来吧&#xff01; 第一招&#xff1a;明确人设定位 要在朋友圈里脱颖而出&#xff0c;首先我们需要明确自己的人设定位。选择一个与自己…

【Spring】IOC/DI中常用的注解@Order与@DependsOn

目录 1、Order 注解改变Bean自动注入的顺序 1.1、了解SpringBootTest注解 1.2、Order 注解改变Bean自动注入的顺序 2、DependsOn 改变Bean的创建顺序 1、Order 注解改变Bean自动注入的顺序 在sping中&#xff0c;通过IOC&#xff08;控制反转&#xff09;和DI&#xff08;依…

文本向量化模型新突破——acge_text_embedding勇夺C-MTEB榜首

在人工智能的浪潮中&#xff0c;以GPT4、Claude3、Llama 3等大型语言模型&#xff08;LLM&#xff09;无疑是最引人注目的潮头。这些模型通过在海量数据上的预训练&#xff0c;学习到了丰富的语言知识和模式&#xff0c;展现了出惊人的能力。在支撑这些大型语言模型应用落地方面…

文件操作(1)

为什么使⽤⽂件&#xff1f; 如果没有⽂件&#xff0c;我们写的程序的数据是存储在电脑的内存中&#xff0c;如果程序退出&#xff0c;内存回收&#xff0c;数据就丢失了&#xff0c;等再次运⾏程序&#xff0c;是看不到上次程序的数据的&#xff0c;如果要将数据进⾏持久化的…

各平台奇怪问题备忘录

微信小程序 小程序报错Page 页面路径 has not been register yet 描述&#xff1a;uniapp做微信小程序开发时&#xff0c;新增某页面后&#xff0c;小程序跳转该页面报错Page 页面路径 has not been register yet 已知&#xff1a;page.json已添加该页面&#xff0c;小程序a…

B端设计实战:基于角色属性的权限设计

编辑导读:“权限控制”是中后台的基础能力,用于管控操作人员在平台内可做的事项内容。即通过权限控制,可以决定哪些人在平台内可以做哪些事。本文作者围绕角色&属性的权限设计展开分析,希望对你有帮助。 Hello,我是一名交互设计师。 随着3月暖春的即将到来,苏州的疫…