问题

最近跑师兄21年的论文代码，代码里使用了Pytorch分布式训练，在单机8卡的情况下，运行代码，出现如下问题。

也就是说GPU(1..7)上的进程占用了GPU0，这导致GPU0占的显存太多，以至于我的batchsize不能和原论文保持一致。

解决方法

我一点一点进行debug。
首先，在数据加载部分，由于没有将local_rank和world_size传入get_cifar_iter函数，导致后续使用DALI创建pipeline时使用了默认的local_rank=0，因此会在GPU0上多出该GPU下的进程

其次，在使用torch.load加载模型权重时，没有设置map_location，于是会默认加载到GPU0上，下图我选择将模型权重加载到cpu。虽然，这会使训练速度变慢，但为了和论文的batchsize保持一致也不得不这样做了。-.-

参考文献

nn.parallel.DistributedDataParallel多卡训练，第一张卡会多出进程？

玄机博客

1.本站内容仅供参考，不作为任何法律依据。用户在使用本站内容时，应自行判断其真实性、准确性和完整性，并承担相应风险。

2.本站部分内容来源于互联网，仅用于交流学习研究知识，若侵犯了您的合法权益，请及时邮件或站内私信与本站联系，我们将尽快予以处理。

3.本文采用知识共享署名4.0国际许可协议 [BY-NC-SA] 进行授权

4.根据《计算机软件保护条例》第十七条规定“为了学习和研究软件内含的设计思想和原理，通过安装、显示、传输或者存储软件等方式使用软件的，可以不经软件著作权人许可，不向其支付报酬。”您需知晓本站所有内容资源均来源于网络，仅供用户交流学习与研究使用，版权归属原版权方所有，版权争议与本站无关，用户本人下载后不能用作商业或非法用途，需在24个小时之内从您的电脑中彻底删除上述内容，否则后果均由用户承担责任；如果您访问和下载此文件，表示您同意只将此文件用于参考、学习而非其他用途，否则一切后果请您自行承担，如果您喜欢该程序，请支持正版软件，购买注册，得到更好的正版服务。