高性能计算-深入理解共享内存 bankConflict 以及解决方案

news/2025/11/8 11:49:25/文章来源:https://www.cnblogs.com/anluo8/p/19109417

1. 背景知识

  • 常说的 bankConflict 指的在共享内存的 store load 过程中产生。

  • 共享内存位于 L1TexCache 上,使用场景通常为从 GlobalMemeory store to SharedM,sharedM load to register。

  • 共享内存的硬件实现:为实现高带宽,共享内存被划分大小相等的存储体,这些模块可以被同时访问。

  • 共享内存的访存原理:如果 n 个数据请求落在n 个不同的存储体(逻辑上叫bank),可以被同时处理,相当于获得单个存储体带宽 n 倍的整体带宽。

2. BankConflict

  • 首先一个warp 的所有线程对共享内存访问的一个内存事务可以是非连续的地址;

  • 如果一次内存事务中不同线程访问数据在一个存储体(包含一个bank不同字节的情况)就会引发串行访问,此时发生 m 路 bankConflict,需要 m 个内存事务请求。

  • 如下图,一个warp 非连续访存不同 bank(存储体),只需要一个访存事务:

image

  • 如下图,如果一个warp 访存同一个bank(存储体),则会产生 bankConflict,在第18号存储体发生串行访问,需要 4 个内存事务:

image

3. 解决方案

  • padding
  • bank_B 的元素在 padding 后的数组中列坐标计算:
  • A: 共享内存的原数据每行占用 bank 数量;
  • P: 行末 Padding bank 数量;
  • B: 数据在原数组中的 bank 坐标;
  • Yi: 元素在 padding 后数组列坐标;
  • i:数据的 bank 标记循环次数(i≥0)。

\[Y_{i} = (i*32 + B) \bmod (A+P) \]

  • Padding 参数 P 的选择:无论对共享内存连续访问还是非连续访问,通常设置为最小值 1;
  • swizzle:混合布局。将共享内存原来的存放地址进行转换,得到新的物理存放地址。避免bankconflict。
  • 算法原理:将地址行列坐标做异或运算的结果覆盖原坐标中的列坐标数据。
  • 将矩阵每8个连续元素分块, 比如 16 * 64大小的矩阵,如下图:
    image
  • addr 地址末三位为tile 内的位置,一行8个元素,只需要定位到 tile 起始位置,所以一定为 000;中间三位为块的列坐标,前三位为块的行坐标。
  • 对于gaddr 在共享内存的原地址addr: B 表示列需要的二进制位数,M 表示一个块内的元素索引需要的二进制位数,S 表示 addr 地址按块划分的行列坐标需要位移的二进制位数=M。
template<uint32_t B,uint32_t M,uint32_t S>
__device__ __forceinline__ uint32_t swizzle(uint32_t srcAddr)
{//行列坐标值取后三位进行异或运算//掩码用来获取行坐标uint32_t mask = (1 << B - 1) << M;uint32_t addr = ((srcAddr >> S) & mask) ^ srcAddr;return addr;
}

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/959586.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

/etc/systemd/system和/lib/systemd/system的区别 - Leone

linux系统中有很多的system目录,在平常使用中或者大量的博客中,常看到的有/etc/systemd/system、/lib/systemd/system以及/usr/lib/systemd/system等,这三者有什么样的关系呢,本文将三者的关系详细说明,后续使用不…

git base多标签解决方案

1,打开cmd或者powershell 2,按下图增加git base配置 3,默认启动配置 图标:

详细介绍:LSTM与GRU:解决RNN梯度消失问题的利器(含代码)

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

MySQL索引(二):覆盖索引、最左前缀原则与索引下推详解

MySQL系列文章 本文是MySQL索引系列的第二篇,接续前文《MySQL索引(一):从数据结构到存储引擎的实现》的基础知识,将深入探讨索引的高级特性和优化技巧。本文将通过实际案例,详细解析覆盖索引、最左前缀原则和索引…

2025年广东RBA验厂认证机构权威推荐榜单:BSCI验厂认证/智能工厂申报/BSCI验厂认证实力机构精选

在全球化供应链管理日益严格的背景下,RBA(责任商业联盟)验厂认证已成为电子行业及相关供应链企业的核心社会责任标准之一。通过RBA认证意味着企业在劳工权益、健康安全、环境保护、商业道德等方面达到了国际要求,成…

2025年交通信号灯定制厂家权威推荐榜单:红绿灯交通信号灯/机动车信号灯/太阳能信号灯源头厂家精选

在智慧城市与交通强国建设的双重推动下,智能交通信号灯市场正迎来快速增长。据行业报告分析,未来几年全球智能交通信号灯市场预计将保持稳定增长态势。 作为智能交通系统的核心组成部分,定制化的交通信号灯不仅能满…

72Mhz 32位MCU MH2030ACCT7软硬件兼容STM32F030C8T6

MH2030ACCT7基于32位ArmCortex M0核心的MCU,最大支持256K字节闪存、12个定时器、1个ADC、10个通信接口、2组比较器、3组运算放大器 内核:32位的ArmCortex-M0 Core,最高72MHz工作频率 存储器 − 支持最大256K字节的闪…

2025年啤酒厂设备实力厂家权威推荐榜单:精酿啤酒设备/精酿啤酒厂设备/啤酒设备/啤酒生产设备源头厂家精选

随着精酿啤酒市场的持续升温,专业啤酒厂设备已成为决定啤酒品质与生产效率的关键因素。据行业数据显示,2025年中国精酿啤酒设备市场规模预计达到87亿元,年复合增长率稳定在15%-18% 的区间。 在啤酒产业升级的浪潮中…

2025年村口村牌石实力厂家权威榜单:入村口村牌石/村标石/村牌石源头厂商精选

在美丽乡村建设和乡村旅游蓬勃发展的背景下,村口村牌石作为村庄形象展示的第一视觉载体,其重要性日益凸显。一块设计精湛、制作精良的村牌石不仅能提升村庄整体形象,更能传承地方文化,增强村民认同感。 当前,超过…

一对一直播软件源码,为什么 Java 不支持类多重继承? - 云豹科技

一对一直播软件源码,为什么 Java 不支持类多重继承?为什么Java不支持类多重继承, 可以考虑以下两点:1、 第一个原因围绕钻石💎形继承问题产生的歧义考虑一个类 A 有 foo() 方法, 然后 B 和 C 派生自 A, 并且有自己…

Claude Code 体验:让 AI 成为你的编程搭档,效率翻倍指南

最近一直在尝试各类 AI 辅助编程工具,偶然发现了 Claude Code 这款神器,使用两个月后工作效率提升显著。今天就来分享它的核心优势、实际使用场景,以及更便捷的上手方式,帮大家少走弯路~ 一、为什么推荐 Claude C…

2025年铟铋锡合金权威榜单:铟板/铟条/铟方块源头厂商精选

在高端制造业和电子半导体行业飞速发展的今天,铟铋锡合金作为一种重要的低熔点合金和功能材料,在电子焊料、热界面材料、半导体封装、ITO靶材等领域发挥着不可替代的作用。其独特的低熔点特性、优良的导热性、良好的…

2025年连接器厂家权威推荐榜:USB连接器,电池连接器,TYPE-C连接器,防水TYPE-C/USB连接器优质供应商精选

2025年连接器厂家权威推荐榜:USB连接器,电池连接器,TYPE-C连接器,防水TYPE-C/USB连接器优质供应商精选 一、行业背景与发展趋势 随着物联网、智能家居、移动终端设备的快速发展,连接器作为电子设备中不可或缺的关…

2025年插座厂家权威推荐榜:耳机插座,DC插座,防水耳机插座源头企业综合测评与选购指南

2025年插座厂家权威推荐榜:耳机插座,DC插座,防水耳机插座源头企业综合测评与选购指南 随着智能终端设备市场的持续扩张,插座类元器件作为电子设备中不可或缺的接口部件,其技术标准与品质要求日益提升。耳机插座在…

2025年轻触开关厂家推荐排行榜,检测开关,轻触开关,防水轻触开关,微型轻触开关公司最新精选榜单

2025年轻触开关厂家推荐排行榜,检测开关,轻触开关,防水轻触开关,微型轻触开关公司最新精选榜单 随着智能家居、消费电子和工业自动化领域的快速发展,轻触开关、检测开关、防水轻触开关和微型轻触开关作为关键电子…

2025年墙面隔热涂料权威榜单:厂房隔热材料/外墙隔热涂料/储罐保温隔热涂料实力厂商精选

在建筑节能与绿色建材需求日益增长的背景下,墙面隔热涂料作为提升建筑能效的关键材料,正受到广泛关注。这类涂料通过减少建筑内外热量传递,可显著降低空调能耗20%-40%,为实现"双碳"目标提供有效技术路径…

2025年CNC加工厂家权威推荐排行榜:CNC精密加工/加工中心CNC/cnc电脑锣加工/铝板cnc加工/精密CNC加工公司推荐

2025年CNC加工厂家权威推荐排行榜:CNC精密加工/加工中心CNC/cnc电脑锣加工/铝板cnc加工/精密CNC加工公司推荐 行业背景与发展趋势 随着制造业向智能化、精密化方向转型升级,CNC加工技术作为现代制造业的核心支撑,正…

噬菌体文库构建全流程详解:从基因获取到噬菌体富集

一、核心原理与技术框架 噬菌体文库构建的核心是将外源基因(如抗体可变区)与噬菌体外壳蛋白基因(如 M13 的 pIII 或 pVIII)融合,使外源蛋白展示于噬菌体表面,同时保留其编码基因在噬菌体基因组中。通过 “基因 -…

2025年蒸发器源头厂家权威推荐榜单: 刮板式/刮板式薄膜/双效/废水/多效/横管降膜/MVR/MVR废水/横管降膜蒸发器及蒸发设备生产厂家精选

在工业废水处理需求持续攀升的背景下,蒸发器作为实现环保达标与资源回收的关键设备,其性能直接关系到企业的运营成本与生产效率。 据最新行业调研统计,2024年全球工业蒸发器市场规模已达数千亿元级别,预计未来将保…

hav-cs50-merge-00

哈佛 CS50 中文官方笔记(一) CS50X 第零讲原文:cs50.harvard.edu/x/notes/0/欢迎!社区!计算机科学和问题解决ASCIIUnicodeRGB算法伪代码人工智能未来展望ScratchHello World你好,你喵喵和抽象条件语句OscartimeI…