目录
一 CUDA 安装
二 CUDA环境变量配置
三 CUDA配置VS2017
一 CUDA 安装
1.1 CUDA下载
网址:https://developer.nvidia.com/cuda-toolkit-archive
可以根据需要下载不同版本的CUDA安装包。
1.2 CUDA安装
1.2.1 双击下载的.exe文件安装
1.2.2 点击‘OK’
1.2.3 上一步解压完成后,会自动跳到下图,点击‘同意并继续’即可,由于我已经安装过了,下图是我在网上找的一个图,各版 本都一样
二 CUDA环境变量配置
2.1 右击此电脑→属性→高级系统设置→环境变量
2.2 系统变量里添加:
CUDA_SDK_PATH = C:\ProgramData\NVIDIA Corporation\CUDA Samples\v10.1
CUDA_LIB_PATH = %CUDA_PATH%\lib\x64
CUDA_BIN_PATH = %CUDA_PATH%\bin
CUDA_SDK_BIN_PATH = %CUDA_SDK_PATH%\bin\win64
CUDA_SDK_LIB_PATH = %CUDA_SDK_PATH%\common\lib\x64
注意:CUDA _PATH与CUDA _PATH_V10_1是CUDA安装时自动添加的;
CUDA _PATH_V10_1中的10_1是你安装CUDA的版本号
2.3 添加以下到系统变量path中,添加完点确定
%CUDA_LIB_PATH%
%CUDA_BIN_PAHT%
%CUDA_SDK_BIN_PAHT%
%CUDA_SDK_LIB_PATH%
2.4 重启电脑,然后打开cmd,输入: set cuda 即可看到下图
2.5 检查cuda是否安装好, 打开cmd,
2.5.1 输入:cd C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v10.1\extras\demo_suite
输入之后,注意是否为自己安装的目录,然后按‘Enter’键
2.5.2 找到C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v10.1\extras\demo_suite目录下的deviceQuery.exe,在 cmd里输入:deviceQuery.exe
上图中Result=PASS,表示安装好,否则Result=Fail重装或更换cuda版本吧。
2.5.3 找到C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v10.1\extras\demo_suite目录下的bandwidthTest.exe,在 cmd里输入:bandwidthTest.exe
上图中Result=PASS,表示安装好,否则Result=Fail重装或更换cuda版本吧。
三 CUDA配置VS2017
3.1 打开VS2017新建工程
3.2 右击源文件→添加→新建项→CUDA C/C++ File;创建一个.cu文件
3.3 右击项目名称test_cuda2→生成依赖项→生成自定义,→选择CUDA10.1→确定
3.4 右击cuda_test.cu文件→属性→配置属性→常规→项类型→CUDA C/C++
3.5 右击test_cuda2→属性
3.5.1→VC++目录。在包含目录中添加C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v10.1\include;在库目录中添加 C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v10.1\lib\x64。
注意:要根据自己的CUDA安装添加正确的目录
3.5.2 →链接器→输入→附加依赖项。再附加依赖项中添加相应的.lib文件名称
我这里加的比较多cublas.lib
cublasLt.lib
cuda.lib
cudadevrt.lib
cudart.lib
cudart_static.lib
cufft.lib
cufftw.lib
curand.lib
cusolver.lib
cusparse.lib
nppc.lib
nppial.lib
nppicc.lib
nppicom.lib
nppidei.lib
nppif.lib
nppig.lib
nppim.lib
nppist.lib
nppisu.lib
nppitc.lib
npps.lib
nvblas.lib
nvgraph.lib
nvml.lib
nvrtc.lib
OpenCL.lib
3.6 配置成功后,这里附带一个测试程序:
// CUDA runtime 库 + CUBLAS 库
#include "cuda_runtime.h"
#include "cublas_v2.h" #include <time.h>
#include <iostream> using namespace std;// 定义测试矩阵的维度
int const M = 5;
int const N = 10;int main()
{// 定义状态变量 cublasStatus_t status;// 在 内存 中为将要计算的矩阵开辟空间 float *h_A = (float*)malloc(N*M * sizeof(float));float *h_B = (float*)malloc(N*M * sizeof(float));// 在 内存 中为将要存放运算结果的矩阵开辟空间 float *h_C = (float*)malloc(M*M * sizeof(float));// 为待运算矩阵的元素赋予 0-10 范围内的随机数 for (int i = 0; i < N*M; i++) {h_A[i] = (float)(rand() % 10 + 1);h_B[i] = (float)(rand() % 10 + 1);}// 打印待测试的矩阵 cout << "矩阵 A :" << endl;for (int i = 0; i < N*M; i++) {cout << h_A[i] << " ";if ((i + 1) % N == 0) cout << endl;}cout << endl;cout << "矩阵 B :" << endl;for (int i = 0; i < N*M; i++) {cout << h_B[i] << " ";if ((i + 1) % M == 0) cout << endl;}cout << endl;/*** GPU 计算矩阵相乘*/// 创建并初始化 CUBLAS 库对象 cublasHandle_t handle;status = cublasCreate(&handle);if (status != CUBLAS_STATUS_SUCCESS){if (status == CUBLAS_STATUS_NOT_INITIALIZED) {cout << "CUBLAS 对象实例化出错" << endl;}getchar();return EXIT_FAILURE;}float *d_A, *d_B, *d_C;// 在 显存 中为将要计算的矩阵开辟空间 cudaMalloc((void**)&d_A, // 指向开辟的空间的指针 N*M * sizeof(float) // 需要开辟空间的字节数 );cudaMalloc((void**)&d_B,N*M * sizeof(float));// 在 显存 中为将要存放运算结果的矩阵开辟空间 cudaMalloc((void**)&d_C,M*M * sizeof(float));// 将矩阵数据传递进 显存 中已经开辟好了的空间 cublasSetVector(N*M, // 要存入显存的元素个数 sizeof(float), // 每个元素大小 h_A, // 主机端起始地址 1, // 连续元素之间的存储间隔 d_A, // GPU 端起始地址 1 // 连续元素之间的存储间隔 );cublasSetVector(N*M,sizeof(float),h_B,1,d_B,1);// 同步函数 cudaThreadSynchronize();// 传递进矩阵相乘函数中的参数,具体含义请参考函数手册。 float a = 1; float b = 0;// 矩阵相乘。该函数必然将数组解析成列优先数组 cublasSgemm(handle, // blas 库对象 CUBLAS_OP_T, // 矩阵 A 属性参数 CUBLAS_OP_T, // 矩阵 B 属性参数 M, // A, C 的行数 M, // B, C 的列数 N, // A 的列数和 B 的行数 &a, // 运算式的 α 值 d_A, // A 在显存中的地址 N, // lda d_B, // B 在显存中的地址 M, // ldb &b, // 运算式的 β 值 d_C, // C 在显存中的地址(结果矩阵) M // ldc );// 同步函数 cudaThreadSynchronize();// 从 显存 中取出运算结果至 内存中去 cublasGetVector(M*M, // 要取出元素的个数 sizeof(float), // 每个元素大小 d_C, // GPU 端起始地址 1, // 连续元素之间的存储间隔 h_C, // 主机端起始地址 1 // 连续元素之间的存储间隔 );// 打印运算结果 cout << "计算结果的转置 ( (A*B)的转置 ):" << endl;for (int i = 0; i < M*M; i++) {cout << h_C[i] << " ";if ((i + 1) % M == 0) cout << endl;}// 清理掉使用过的内存 free(h_A);free(h_B);free(h_C);cudaFree(d_A);cudaFree(d_B);cudaFree(d_C);// 释放 CUBLAS 库对象 cublasDestroy(handle);getchar();return 0;
}
程序运行结果: