是什么让.NET7的Min和Max方法性能暴增了45倍?

简介

在之前的一篇文章.NET性能系列文章一:.NET7的性能改进中我们聊到Linq中的Min()Max()方法.NET7比.NET6有高达45倍的性能提升,当时Benchmark代码和结果如下所示:

[Params(1000)]
public int Length { get; set; }private int[] arr;[GlobalSetup]
public void GlobalSetup() => arr = Enumerable.Range(0, Length).ToArray();[Benchmark]
public int Min() => arr.Min();[Benchmark]
public int Max() => arr.Max();
方法运行时数组长度平均值比率分配
Minoutside_default.png10003,494.08 ns53.2432 B
Minoutside_default.png100065.64 ns1.00-
Maxoutside_default.png10003,025.41 ns45.9232 B
Maxoutside_default.png100065.93 ns1.00-
6eac8bb15e222896bcd82b9f69bb51c3.png

可以看到有高达45倍的性能提升,那就有小伙伴比较疑惑,在.NET7中到底是做了什么让它有如此大的性能提升?所以本文就通过.NET7中的一些pr带大家一起探索下.NET7的Min()Max()方法是如何变快的。

探索

首先我们打开.NET Runtime的仓库,应该没有人不会知道仓库的地址吧?里面包含了.NET运行时所有的代码,包括CLR和BCL库。地址如下所示:https://github.com/dotnet/runtime4f36a28dfbfadcfe5b9416ba1200a474.png然后我们熟练的根据命名空间System.Linq找到Linq所在的文件夹位置,如下所示:34033cb2be2cbb509f2c13a0c9c83ba4.png可以看到很多Linq相关的方法都在这个文件夹内,让我们先来找一找Max()方法所对应的类。就是下方所示,我们可以看到刚好异步小王子Stephen Toub大佬提交了一个优化代码。34ec0b3f4348763de6dc6459ebd20c93.png然后我们点击History查看这个类的提交历史,我们发现Stephen大佬在今年多次提交代码,都是优化其性能。740d9e49427d06b9d9eda27ce1061432.png找到Stephen大佬的第一个提交,我们发现在Max的代码中,多了一个特殊的路径,如果数据类型为int[],那么就走单独的一个方法重载,并在这个重载中启用了SIMD向量化,代码如下所示:339b3f8fb32900005370e3b1271dfa0a.pngSIMD向量化在我之前的多篇文章中都有提到(如:.NET如何快速比较两个byte数组是否相等[1]),它是CPU的特殊指令,使用它可以大幅度的增强运算性能,我猜这就是性能提升的原因。

我们可以看到在上面只为int[]做了优化,然后继续浏览了Stephen大佬的其它几个PR,Stephen大佬将代码抽象了一下,使用了泛型的特性,然后顺便为其它的基本值类型都做了优化。能享受到性能提升的有byte sbyte ushort short uint int ulong long nuint nintef3296c58a5e420c140d5c5018847c74.png

所以我们以最后一个提交为例,看看到底是用了什么SIMD指令,什么样的方法来提升的性能。抽取出来的核心代码如下所示:

private static T MinMaxInteger<T, TMinMax>(this IEnumerable<T> source)where T : struct, IBinaryInteger<T>where TMinMax : IMinMaxCalc<T>
{T value;if (source.TryGetSpan(out ReadOnlySpan<T> span)){if (span.IsEmpty){ThrowHelper.ThrowNoElementsException();}// 判断当前平台是否支持使用Vector-128 或者 总数据长度是否小于128位// Vector128是指硬件支持同时计算128位二进制数据if (!Vector128.IsHardwareAccelerated || span.Length < Vector128<T>.Count){// 进入到此路径,说明最基础的Vector128都不支持,那么直接使用for循环来比较value = span[0];for (int i = 1; i < span.Length; i++){if (TMinMax.Compare(span[i], value)){value = span[i];}}}// 判断当前平台是否支持使用Vector-256 或者 总数据长度是否小于256位// Vector256是指硬件支持同时计算256位二进制数据else if (!Vector256.IsHardwareAccelerated || span.Length < Vector256<T>.Count){// 进入到此路径,说明支持Vector128但不支持Vector256// 那么进入128位的向量化的比较// 获取当前数组的首地址,也就是指向第0个元素ref T current = ref MemoryMarshal.GetReference(span);// 获取Vector128能使用的最后地址,因为整个数组占用的bit位有可能不能被128整除// 也就是说最后的尾巴不够128位让CPU跑一次,那么就直接最后往前数128位,让CPU能完整的跑完ref T lastVectorStart = ref Unsafe.Add(ref current, span.Length - Vector128<T>.Count);// 从内存首地址加载0-127bit数据,作为最大值的基准Vector128<T> best = Vector128.LoadUnsafe(ref current);// 计算下一个的位置,也就是偏移128位current = ref Unsafe.Add(ref current, Vector128<T>.Count);// 循环比较 确保地址小于最后地址while (Unsafe.IsAddressLessThan(ref current, ref lastVectorStart)){// 此时TMinMax.Compare重载代码 => Vector128.Max(left, right);// Vector128.Max 会根据类型一一比较,每x位最大的返回,// 比如int就是每32位比较,详情可以看我后文的解析best = TMinMax.Compare(best, Vector128.LoadUnsafe(ref current));current = ref Unsafe.Add(ref current, Vector128<T>.Count);}// 最后一组Vector128进行比较best = TMinMax.Compare(best, Vector128.LoadUnsafe(ref lastVectorStart));// 由于Vector128最后的结果是128位,比如我们类型是int32,那么最后的结果就有// 4个int32元素,我们还需要从这4个int32元素中找到最大的value = best[0];for (int i = 1; i < Vector128<T>.Count; i++){// 这里 TMinMax.Compare就是简单的大小于比较// left > rightif (TMinMax.Compare(best[i], value)){value = best[i];}}}else{// Vector256执行流程和Vector128一致// 只是它能一次性判断256位,举个例子就是一个指令8个int32ref T current = ref MemoryMarshal.GetReference(span);ref T lastVectorStart = ref Unsafe.Add(ref current, span.Length - Vector256<T>.Count);Vector256<T> best = Vector256.LoadUnsafe(ref current);current = ref Unsafe.Add(ref current, Vector256<T>.Count);while (Unsafe.IsAddressLessThan(ref current, ref lastVectorStart)){best = TMinMax.Compare(best, Vector256.LoadUnsafe(ref current));current = ref Unsafe.Add(ref current, Vector256<T>.Count);}best = TMinMax.Compare(best, Vector256.LoadUnsafe(ref lastVectorStart));value = best[0];for (int i = 1; i < Vector256<T>.Count; i++){if (TMinMax.Compare(best[i], value)){value = best[i];}}}}else{// 如果不是基本类型的数组,那么进入迭代器,使用原始方法比较using (IEnumerator<T> e = source.GetEnumerator()){if (!e.MoveNext()){ThrowHelper.ThrowNoElementsException();}value = e.Current;while (e.MoveNext()){T x = e.Current;if (TMinMax.Compare(x, value)){value = x;}}}}return value;
}

以上就是代码的解析,相信很多人疑惑的地方就是Vector128.Max做了什么,我们可以构造一个代码,让大家简单的看出来发生了什么。代码和运行结果如下所示:

// 定义一个数组
var array = new int[] { 4, 3, 2, 1, 1, 2, 3, 4 };// 拿到数组首地址指针
ref int current = ref MemoryMarshal.GetReference(array.AsSpan());// 从首地址加载128位数据,上面是int32
// 所以x = 4, 3, 2, 1
var x = Vector128.LoadUnsafe(ref current);// 偏移128位以后,继续加载128位数据
// 所以y = 1, 2, 3, 4
var y = Vector128.LoadUnsafe(ref Unsafe.Add(ref current, Vector128<int>.Count));// 使用Vector128.Max进行计算
var result = Vector128.Max(x, y);// 打印输出结果
x.Dump();
y.Dump();
result.Dump();

ea03c41e1f0ce3898728c7d5d6b89ba8.png从运行的结果可以看到,result中保存的是xy对应位置的最大值,这样是不是就觉得清晰明了,Stephe大佬上文的代码就是做了这样一个操作。

同样,如果我们把int32换成int64,也就是long类型,由于一个元素占用64位,所以一次只能加载2个int64元素比较最大值,得出对应位置的最大值:c4170f42230a2c9168e4d297e2b5e4e9.png

最后使用下面的for循环代码,从result中找到最大的那个int32元素,从我们上文的案例中就是4,结果和代码如下所示:

var value = result[0];
for (int i = 1; i < Vector128<int>.Count; i++)
{if (value < result[i]){value = result[i];}
}

c048b700af2b701b8adfcee517a88957.png要注意的是,为了演示方便我这里数组bit长度刚好是128倍数,实际情况中需要考虑不是128倍数的场景。

总结

答案显而易见,试.NET7中Min()Max()方法性能暴增45倍的原因就是Stephe大佬对基本几个连续的值类型比较做了SIMD优化,而这样的优化在本次的.NET7版本中有非常多,后面有时间带大家一起看看SIMD又是如何提升其它方面的性能的。

参考资料

[1]

.NET如何快速比较两个byte数组是否相等: https://www.cnblogs.com/InCerry/p/dotnet-compare-two-byte-arrays.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/281556.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

html标记语言 --框架

html标记语言 --框架六、框架1、什么是框架 框架将浏览器划分成不同的部分&#xff0c;每一部分加载不同的网页 实现同一浏览器窗口中加载多个页面的效果。 语法格式<frameset>.......</frameset>2. 属性2.1 cols使用“像素数”和%分割左右窗口&#xff0c;“*” 表…

c语言兔子洞,数据结构水题选讲 - osc_y08db3kb的个人空间 - OSCHINA - 中文开源技术交流社区...

[Ynoi2011]ODT\(O(nlog^2n)\) 的做法非常显然直接把树重链剖分一下&#xff0c;每个点维护轻儿子的平衡树就行但是这题 \(1e6\) 的数据范围使得 \(O(nlog^2n)\) 没那么容易卡过去(当然很多人卡过去了考虑给一个点很多重儿子那么若一个点有 \(k\) 个重儿子&#xff0c;修改复杂度…

centos 7.x systemd service 配置方法整理

一、存放路径/etc/systemd/system二、service配置整理2.1 zookeeper.service[Unit]DescriptionZooKeeper ServiceAftersyslog.targetAfternetwork.target[Service]#使用shell脚本启动的要用forking模式TypeforkingUserzookeeperGroupzookeeper#脚本启动ExecStart/usr/local/zoo…

MAVEN集成测试环境搭建

1. MAVEN SVN HUDSON SONAR集成测试环境搭建、1.1 软件准备 Hudson、Jenkins、Sonar1.2 软件安装 说明&#xff1a;本例均使用将应用程序部署至web容器下&#xff0c;Hudson和Sonar有其他部署启动方式&#xff0c;如有需要请自行使用&#xff0c;本文不做赘述。1.2.1 安装hu…

ubus c语言例子,openwrt之ubus例子

好一个icrootLEDE:/# ubus call test_ubus helloworld {"id":1,"msg":"hi","array":["a","b"]}{"id": 1,"msg": "hi","shuzu": ["a","b"]}文件目…

使用Spring访问Mongodb的方法大全——Spring Data MongoDB查询指南

1.概述 Spring Data MongoDB 是Spring框架访问mongodb的神器&#xff0c;借助它可以非常方便的读写mongo库。本文介绍使用Spring Data MongoDB来访问mongodb数据库的几种方法&#xff1a; 使用Query和Criteria类JPA自动生成的查询方法使用Query 注解基于JSON查询在开始前&#…

mysqldump导出备份数据库报Table ‘performance_schema.session_variables‘ doesn‘t exist

今天在bash进行本地数据库往云端数据库导数据的时候&#xff0c;在本地导出.sql文件这第一步就出现了错误问题&#xff0c;导出sql文件的命令&#xff1a; 1 mysqldump -u 用户名 -p 数据库名 > xxx.sql 在做这一步将数据导出的时候报了这么一个错误&#xff0c; 1 mysqldu…

在Identity框架中使用RoleBasedAuthorization

本文将介绍在 Identity 框架中如何使用 Sang.AspNetCore.RoleBasedAuthorization[1] 库。核心介绍Identity 和 jwt 的基本配置我们在这里不再赘述&#xff0c;可以参考最后的项目样例。核心的代码主要为 IRolePermission 的实现。internal class MyRolePermission : IRolePermi…

2016年印度公有云服务市场将达13亿美元

根据IT咨询公司Gartner最新调查数据显示&#xff0c;2016年印度公有云服务市场预计将增长35.9%&#xff0c;达到13亿美元。 增长最快的是云系统基础设施即服务&#xff08;IaaS&#xff09;&#xff0c;2016年预计将增长45.5%&#xff1b;其次是平台即服务&#xff08;PaaS&…

PAT 1042. 字符统计

1042. 字符统计 请编写程序&#xff0c;找出一段给定文字中出现最频繁的那个英文字母。 输入格式&#xff1a; 输入在一行中给出一个长度不超过1000的字符串。字符串由ASCII码表中任意可见字符及空格组成&#xff0c;至少包含1个英文字母&#xff0c;以回车结束&#xff08;回车…

Magicodes.IE 2.7.0-beta发布

2.7.0-beta2022.10.27使用SixLabors.ImageSharp替代System.Drawing&#xff0c;感谢linch90 &#xff08;见pr#454&#xff09;2.6.92022.10.26fix: 动态数据源导出到多个sheet的问题 &#xff08;见#449&#xff09;2.6.82022.10.18Excel模板导出添加API&#xff0c;以支持通过…

光伏逆变器“领跑”:不止于技术

从无到有&#xff0c;从效率比拼到突破99%&#xff0c;在跟进速度上没话说的国内光伏逆变器企业难免深陷“价格战”、同质化的泥潭。随着“领跑者”计划跃居光伏主流&#xff0c;嗅到市场红利的企业再次蜂拥而至。 目前&#xff0c;鉴衡认证发布的第一批光伏并网逆变器“领跑者…

Ubuntu 18.04上Qmmp安装教程

Qmmp&#xff0c;一个开源的基于Qt的多媒体播放器。它具有多种音频文件格式支持&#xff0c;DSP效果&#xff0c;视觉效果;输出系统支持&#xff08;OSS4&#xff08;FreeBSD&#xff09;&#xff0c;ALSA&#xff08;Linux&#xff09;&#xff0c;Pulse Audio&#xff0c;JAC…

android自动跑马灯,Android-最强跑马灯

Android--最强跑马灯Android 跑马灯已经有很多版本&#xff0c;从最基本的TextView&#xff0c;到重写TextView使TextView取消焦点限制&#xff0c;还有重写TextView利用ScrollTo方法写的&#xff0c;基本都能满足一般需要。然而在使用过程中&#xff0c;发现一些意外---有时会…

python:软件目录结构规范

为什么要设计好目录结构&#xff1f; “设计项目目录结构”&#xff0c;就和“代码编码风格”一样&#xff0c;属于个人风格问题。对于这种风格上的规范&#xff0c;一直都存在两种态度&#xff1a; 1.一种认为&#xff0c;这种个人风格问题“无关紧要”。理由是能让程序work就…

开启智能生活新时代 河北省智慧社区建设从各个击破

智慧社区作为智慧城市的重要组成部分&#xff0c;是城市智慧落地的触点&#xff0c;是城市管理、政务服务和市场服务的载体。随着智慧城市的推广以及新一代技术的普及&#xff0c;智慧社区的项目必将迎来新一轮的快速发展。2016年智慧社区成为企业业务落地的承载点&#xff0c;…

C# WPF 表格控件的前后台数据交互?

概述GridControl控件使用我们已经进行了实例讲解&#xff0c;这节内容我们列举一个特殊的应用场景&#xff1a;表格中有一列CheckBox&#xff0c;默认都处于勾选状态&#xff0c;当用户通过界面操作后&#xff0c;我们要确保用户至少选择了一项&#xff0c;相当于一次数据验证&…

Java(C#)基础差异-语法

1、long类型 Java long类型&#xff0c;若赋值大于int型的最大值&#xff0c;或小于int型的最小值&#xff0c;则需要在数字后加L或者l&#xff0c;表示该数值为长整数&#xff0c;如long num2147483650L。 举例如下&#xff1a; public static void main(String[] args) {/** …

android防止左向右滑出程序,Android——ViewPager禁止左右滑动的实现

目录1 背景用ViewPagerBottomNavigationView多个Fragment快速搭建的页面切换架构&#xff0c;一个有四个页面&#xff0c;因为测试需要&#xff0c;需要屏蔽掉中间的两个&#xff0c;做法是&#xff1a;设置不可点击选择&#xff1a;xml布局文件中&#xff0c;BottomNavigation…

Yii2 的快速配置 api 服务 yii2-fast-api

yii2-fast-api yii2-fast-api是一个Yii2框架的扩展&#xff0c;用于配置完善Yii2&#xff0c;以实现api的快速开发。 此扩展默认的场景是APP的后端接口开发&#xff0c;因此偏向于实用主义&#xff0c;并未完全采用restfull的标准&#xff0c;方便前端开发处理接口数据以及各种…