网站开发的挑战扬州公司做网站

web/2025/10/6 4:22:36/文章来源:

网站开发的挑战,扬州公司做网站,自己找厂家做代理卖货,企业网站分析案例自动并行计算异步计算默认情况下#xff0c;PyTorch中的 GPU 操作是异步的。当调用一个使用 GPU 的函数时#xff0c;这些操作会在特定的设备上排队但不一定会在稍后立即执行。这就使我们可以并行更多的计算#xff0c;包括 CPU 或其他 GPU 上的操作。一般情况下…自动并行计算异步计算默认情况下PyTorch中的 GPU 操作是异步的。当调用一个使用 GPU 的函数时这些操作会在特定的设备上排队但不一定会在稍后立即执行。这就使我们可以并行更多的计算包括 CPU 或其他 GPU 上的操作。一般情况下异步计算的效果对调用者是不可见的因为每个设备按照它们排队的顺序执行操作在 CPU 和 GPU 之间或两个 GPU 之间复制数据时PyTorch会自动执行必要的同步操作。因此计算将按每个操作同步执行的方式进行。可以通过设置环境变量CUDA_LAUNCH_BLOCKING 1来强制进行同步计算。当 GPU 产生error时这可能非常有用。异步执行时只有在实际执行操作之后才会报告此类错误因此堆栈跟踪不会显示请求的位置。自动并行计算默认情况下GPU 操作是异步的。当调用一个使用 GPU 的函数时这些操作会在特定的设备上排队但不一定会在稍后执行。这允许我们并行更多的计算包括 CPU 或其他 GPU 上的操作。下面看一个简单的例子。 import torch import timeassert torch.cuda.device_count() 2#先实现一个简单的计时类 class Benchmark(): # 本类已保存在d2lzh_pytorch包中方便以后使用def __init__(self, prefixNone):self.prefix prefix if prefix else def __enter__(self):self.start time.time()def __exit__(self, *args):print(%stime: %.4f sec % (self.prefix, time.time() - self.start))定义run函数令它做20000次矩阵乘法 def run(x):for _ in range(20000):y torch.mm(x, x)分别在两块GPU上创建Tensor x_gpu1 torch.rand(size(100, 100), devicecuda:0) x_gpu2 torch.rand(size(100, 100), devicecuda:1)分别使用它们运行run函数并打印运行所需时间 with Benchmark(Run on GPU1.):run(x_gpu1)torch.cuda.synchronize()with Benchmark(Then run on GPU2.):run(x_gpu2)torch.cuda.synchronize()Run on GPU1. time: 0.3149 sec Then run on GPU2. time: 0.3816 sec尝试系统能自动并行这两个任务 with Benchmark(Run on both GPU1 and GPU2 in parallel.):run(x_gpu1)run(x_gpu2)torch.cuda.synchronize()Run on both GPU1 and GPU2 in parallel. time: 0.5288 sec当两个计算任务一起执行时执行总时间小于它们分开执行的总和。这表明PyTorch能有效地实现在不同设备上自动并行计算。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/web/87736.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！