企业网站内使用了哪些网络营销方式,网络公司加盟代理,网站程序源码下载,上海做公司网站深度学习踩坑记录
在跑一个深度学习的项目的时候#xff0c;为了计算每个epoch的Loss#xff0c;肯定要把每个batch_size的loss给加起来#xff0c;就会有类似如下的代码
train_loss loss是的当时手抖#xff0c;忘了是loss.item()#xff0c;代码也能正常运行#xf…深度学习踩坑记录
在跑一个深度学习的项目的时候为了计算每个epoch的Loss肯定要把每个batch_size的loss给加起来就会有类似如下的代码
train_loss loss是的当时手抖忘了是loss.item()代码也能正常运行也能正常算并且每一步需要跑的时间也是一样的但是这样会导致每一步的内存都是叠加的。并且这种占显存的方式你在nvidia-smi还看不出来得去htop里面看一看好家伙显存占的高的离谱正常来说我就占4个G他占了十几个G当时就感觉不对劲了后面发现这叫显存泄露 总而言之言而总之如果你直接loss也能跑结果也是一样的但是这就会导致需要的内存一步步的叠加我是跑到10几个epoch的时候莫名其妙被killed了去查了一下是out of memory的问题刚开始还以为是别的因素后面才发现是我的问题T T