"同样一张2080Ti,跑30G的bisenet轻轻松松,反而跑十几G的更轻量化的网络就跑不动了,会不会因为深度可分离卷积和非对称卷积这些pytorch没有优化呢? 比如我一张2080ti,512x1024下bisenetv2可以bs=4,反而跑今年TMM一篇flops只有十G的FBSnet 两张20 ...."
同样一张2080Ti,跑30G的bisenet轻轻松松,反而跑十几G的更轻量化的网络就跑不动了,会不会因为深度可分离卷积和非对称卷积这些pytorch没有优化呢? 比如我一张2080ti,512x1024下bisenetv2可以bs=4,反而跑今年TMM一篇flops只有十G的FBSnet 两张2080ti都跑不起?
和分辨率有关吧,太大的输入size也会,再不行就把奇奇怪怪的增广关了,比如muti scale这种。build model之后,rand一个nchw的tensor进去看看,没有溢出就是训练框架的设置问题。
更多详情可咨询175-3102-1189,或到我司官网了解:https://www.chinaai.org.cn/
联系人:申老师
手机:17531021189(v同号)
和分辨率有关吧,太大的输入size也会,再不行就把奇奇怪怪的增广关了,比如muti scale这种。build model之后,rand一个nchw的tensor进去看看,没有溢出就是训练框架的设置问题。
更多详情可咨询175-3102-1189,或到我司官网了解:https://www.chinaai.org.cn/
联系人:申老师
手机:17531021189(v同号)