CUDA笔记

CUDA笔记

nvidia-smi 命令使用

nvidiasmi -q:查询GPU详细信息;
nvidia-smi -q -l 0:查询特定GPU详细信息;
nvidia-smi -q -l 0 -d MEMORY:显示GPU特定信息;
nvidia-smi -h:英伟达的帮助命令。

Cuda 程序

CUDA 核函数
注意事项:
1、核函数在 GPU 上进行并行执行;
2、注意:
(1) 核函数必须有 gloabl 进行修饰,限定词 global 修饰;
(2)返回值必须是 void;
3、形式:
(1)global void kernel_function(argument arg)
{
printf(“Hello World from the GPU! \n”);// gpu 的输出只能使用 printf 函数
}
(2)void global kernel_function(argument arg)
{
printf(“Hello World from the GPU! \n”);// gpu 的输出只能使用 printf 函数
}
核函数不同于其他函数的注意事项:

  • 核函数只能访问 GPU 内存;(不能访问 CPU 内存 (host),只能访问 GPU 内存 (device))
  • 核函数不能使用变长参数;(需要明确参数的个数)
  • 核函数不能使用静态变量;
  • 核函数不能使用函数指针;
  • 核函数具有异步性(由于 cpu 和 gpu 之间是异构的,所以 cpu 不会了解 gpu 线程是否执行完毕,需要显示的调用同步函数)。

CUDA 程序编写流程:

	int main(void){主机代码;核函数调用;主机代码;return 0;}
注意:核函数不支持 C++ 的 iostream。

cuda 代码:

// 文件命名后缀  **.cu
# include <stdio.h>
__global__ void hello_from_gpu()
{printf("Hello World from the GPU! \n");
}int main(void)
{hello_from_gpu<<<4, 4>>>();  // 第一个指的是线程块 blocks(x, y, z),第二个指的是每个线程块threads(x, y, z)cudaDeviceSynchronize();return 0;
}

CUDA 线程模型

线程模型结构:

  • 线程模型的重要概念:
    (1)grid:网格; (2)block 线程块。
  • 线程分块是逻辑上的划分,物理上线程部分块;
  • 配置线程 <<<grid_size, block_size>>>
  • 最大允许线程块大小:1024
    最大允许网格大小:2^31 - 1 (针对一维网格)

一维的线程模型

  • 每个线程在核函数中都有唯一的身份标识;
  • 每个线程的唯一标识由这两个<<< grid_size, block_size>>>确定;grid_size,block_size 保存在内建变量(build-in varibale), 目前考虑的是唯一的情况:
    (1)gridDim.x:该变量的数值等于执行配置中变量grid_size的值;
    (2)blockDim.x:该变量的数值等于执行配置文件中变量 block_size 的值。
  • 线程索引保存成内建变量(build-in variable):
    (1)blockIdx.x:该变量指定一个线程在一个网格中的线程块索引值,范围是0 ~ gridDim.x - 1;
    (2)threadIdx.x:该变量指定一个线程在一个线程块中的线程索引值,范围是0 ~ blockDim.x - 1;

代码:

# include <stdio.h>__global__ void hello_from_gpu(){const int bid = blockIdx.x;const int tid = threadIdx.x;const int id = threadIdx.x + blockIdx.x *  blockDim.xprintf(" Hello Wordl from block %d and thread %d, global id %d! \n", blockIdx.x, threadIdx.x, id);}int main(void){hello_from_gpu<<<4, 4>>>();cudaDeviceSynchrinize();}

推广到多维线程

1、CUDA 可以组织三维的网格和线程块;
2、blockIdx 和 threadIdx 是类型为 uint3 的变量,该类型是一个结构体,具有(x, y, z)三个成员:
blockIdx.x; blockIdx.y; blockIdx.z
threadIdx.x; threadIdx.y; threadIdx.z
注意:内建变量只在核函数中有用,且无需定义!

定义多维网格和线程块

dim3 grid_size(Gx, Gy, Gz);
dim3 block_size(Bx, By, Bz);

多维网格和线程块的限制条件

  • 网格大小限制:
    gridDim.x 最大值: 2^31 - 1;
    gridDim.y 最大值: 2^31 - 1;
    gridDim.z 最大值: 2^16 - 1;
  • 线程块大小的限制:
    blockDim.x 最大值:1024;
    blockDim.y 最大值:1024;
    blockDim.z 最大值:64;
    注意:线程总数不能超过1024;

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/656105.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C语言——如何进行文件操作

大家好&#xff0c;我是残念&#xff0c;希望在你看完之后&#xff0c;能对你有所帮助&#xff0c;有什么不足请指正&#xff01;共同学习交流 本文由&#xff1a;残念ing原创CSDN首发&#xff0c;如需要转载请通知 个人主页&#xff1a;残念ing-CSDN博客&#xff0c;欢迎各位→…

提升编程效率的利器: 解析Google Guava库之集合篇RangeSet范围集合(五)

在编程中&#xff0c;我们经常需要处理各种范围集合&#xff0c;例如时间范围、数字范围等。传统的集合类库往往只能处理离散的元素集合&#xff0c;对于范围集合的处理则显得力不从心。为了解决这个问题&#xff0c;Google的Guava库提供了一种强大的数据结构——RangeSet&…

【Transformer 】 Hugging Face手册 (01/10)

一、说明 本文是Hugging Face的用户手册。加入 Hugging Face 社区&#xff0c;在模型、数据集和空间上进行协作&#xff0c;通过加速推理获得更快的示例。 二、变形金刚 适用于 PyTorch、TensorFlow 和 JAX 的先进机器学习。 Transformers 提供 API 和工具&#xff0c;可轻松下…

计算机网络-物理层传输介质(导向传输介质-双绞线 同轴电缆 光纤和非导向性传输介质-无线波 微波 红外线 激光)

文章目录 传输介质及分类导向传输介质-双绞线导向传输介质-同轴电缆导向传输介质-光纤非导向性传输介质小结 传输介质及分类 物理层规定电气特性&#xff1a;规定电气信号对应的数据 导向传输介质-双绞线 双绞线的主要作用是传输数据和语音信息。它通过将两根导线以特定的方…

C#,德兰诺依数(Dealnnoy Number)的算法与源代码

1 Dealnnoy Number 德兰诺依数&#xff0c;德兰诺伊数 德兰诺依数是以法国军官、业余数学家亨利德兰诺依&#xff08;Henry Dealnnoy&#xff09;的名字命名。 Henry Dealnnoy 在组合数学中&#xff0c;德兰诺依数描述了从(0,0)到(m,n)的格路问题中&#xff0c; 只允许按照(0…

vue3之echarts3D环柱饼图

vue3之echarts3D环柱饼图 效果&#xff1a; 版本 "echarts": "^5.4.1", "echarts-gl": "^2.0.9" 核心代码&#xff1a; <template><div class"content"><div ref"eCharts" class"chart&…

【uniapp·微信登录】

一、新建文件夹&#xff08;登录&#xff09; 在HBuilderX中开发微信小程序的步骤如下&#xff1a; 在HBuilderX中新建一个uniapp项目。 在HBuilderX中配置安装的微信开发者工具路径&#xff0c;可以通过点击 工具》设置》运行配置–小程序运行配置 进行配置。 在HBuilderX中修…

【MySQL】聚集函数注意事项

聚集函数注意事项 除了 COUNT(*) 不会忽略列值为 NULL 的行&#xff0c;其他的聚集函数都会忽略。 MAX() 也可以返回文本中的最大值&#xff0c;返回排序后的最后一行。 MIN() 也可以返回文本中的最小值&#xff0c;返回排序后的第一行。 使用标准的算术操作符&#xff08;加…

动网格-网格重构之弹性光顺局部重构法(四)

弹性光顺法的基本特点 弹性光顺法中&#xff0c;网格线类似于弹簧&#xff0c;两端节点(node)作弹性移动 弹性光顺法有如下特点。 (1)节点的数量和节点之间的连接关系均不变&#xff0c;即节点之间的连接属性不变。 (2)单独使用时&#xff0c;仅限于变形非常小的情况&#xff…

while 和 do-while

签名&#xff1a;但行好事&#xff0c;莫问前程。 文章目录 前言一、while1、基本语法2、执行过程3、示例 二、do-while1、基本语法2、执行过程3、小练习&#xff08;ATM存款取款机&#xff09; 总结 前言 记录一下while 和 do-while 的使用。 一、while 1、基本语法 ①初始…

【Java万花筒】Java引擎加速:GPU计算与并行处理库助力你的应用翱翔

加速未来&#xff1a;掌握GPU计算&#xff0c;助力Java应用飞跃 前言 随着计算需求的不断增加&#xff0c;GPU计算和并行处理技术成为提高应用程序性能的关键。在Java生态系统中&#xff0c;有许多强大的库和工具&#xff0c;可以帮助开发者充分利用GPU的并行计算能力&#x…

Navicat连接MySQL出现Host is not allowed to connect to this MySQL server 解决方法

翻译 &#xff1a;‘不允许主机连接到此MySQL服务器’ &#xff08;意思是本地账号连接可以登录&#xff0c;但是远程登陆不行&#xff09; 解决方案&#xff1a; 1、输入mysql账号密码&#xff0c;登录mysql mysql -uroot -p2、进入mysql库 use mysql; 3、修改root账号的host…

Java:SpringBoot整合Hashids,实现数据ID加密隐藏

引入依赖 <dependency><groupId>org.hashids</groupId><artifactId>hashids</artifactId><version>1.0.3</version> </dependency>步骤 1、自定义注解 Documented Retention(RetentionPolicy.RUNTIME) Target({ElementType…

OpenHarmony—ArkTS限制throw语句中表达式的类型

规则&#xff1a;arkts-limited-throw 级别&#xff1a;错误 ArkTS只支持抛出Error类或其派生类的实例。禁止抛出其他类型&#xff08;例如number或string&#xff09;的数据。 TypeScript throw 4; throw ; throw new Error();ArkTS throw new Error();限制省略函数返回类…

el-tree实现多选、反选、指定选择

最近项目中遇到实现设备多选的需求&#xff0c;虽然这个需求很常见&#xff0c;但功能需求的不同&#xff0c;实现过程也大相径庭&#xff0c;我们的需求时只提供子级选择&#xff0c;父级不做选择&#xff0c;只提供层级显示&#xff1b; el-tree是elementPlus的组件&#xf…

Codeforces Round 835 (Div. 4)

目录 A. Medium Number B. Atilla’s Favorite Problem C. Advantage D. Challenging Valleys E. Binary Inversions F. Quests G. SlavicG’s Favorite Problem A. Medium Number 中位数,排序之后处于中间位置的数 void solve() {n3;vector<int> a(n);for(auto&a…

漏油检测时间大幅缩短!漏油传感器的检测原理是什么?

在油类化工厂、输油管道、油库等工业生产场所&#xff0c;漏油情况时有发生&#xff0c;如果不能及时发现&#xff0c;往往产生非常严重的后果。因此&#xff0c;由漏油控制器和漏油检测绳组合而成的漏油传感器被广泛应用了起来&#xff0c;能够在发生漏油时及时发出告警&#…

AHK学习,诡异的早起,舒畅地打篮球——2024 第4周总结

活神仙 引言颓 周六周日理清当前老问题新问题 总结当前之前的老问题 学习的AHKAHK历程AHK作用和适合人群 我帮别人解决的AHK例子我自用的AKH功能结尾 引言 今天才写周总结 是因为这两天有点颓 颓在哪里呢&#xff1f; 请听我细细说来 水文 技术有 AHK的&#xff0c;不想看可以…

【React教程】(1) React简介、React核心概念、React初始化

目录 ReactReact 介绍React 特点React 的发展历史React 与 Vue 的对比技术层面开发团队社区Native APP 开发 相关资源链接 EcmaScript 6 补充React 核心概念组件化虚拟 DOM 起步初始化及安装依赖Hello World React React 介绍 React 是一个用于构建用户界面的渐进式 JavaScrip…

Java-12.Spring 中通过 ThreadPoolTaskExecutor 和 AsyncConfigurerSupport 配置默认异步线程池

Java-12a.Spring 中通过 TaskDecorator 配置默认异步线程池 前言 虽然在 SpringBoot 2.7.x 中已经有关于异步线程池的默认配置&#xff0c;但如果还是要自定义的需求&#xff0c;仍然值得学习了解一下。 例如&#xff1a;想要在多线程池中添加 traceId&#xff1b;使用 tran…