我按照4tzR23大佬的设置,第一种不加参数默认启动是以半精度为主的混合精度模式(载入显存的模型是半精度fp16,计算也主要用半精度fp16),由于40hx半精度被砍,速度会非常变得慢。 一个最简单的方法是加--precision full --no-half启动参数禁用半精度,会提速5~6被,但是模型占用的显存也会翻倍(默认好像是2G,禁用后占4G)
第二种方法就是默认不加参数,修改源码,设置以单精度为主的混合精度模式,载入显存模型是fp16,但计算以fp32为主。在modules\devices.py的最后一行,将return torch.autocast("cuda")改为torch.autocast("cuda", dtype=torch.float32, enabled=True),这样启动显存占用减半。这样也不行,还没P104快。
第二种方法就是默认不加参数,修改源码,设置以单精度为主的混合精度模式,载入显存模型是fp16,但计算以fp32为主。在modules\devices.py的最后一行,将return torch.autocast("cuda")改为torch.autocast("cuda", dtype=torch.float32, enabled=True),这样启动显存占用减半。这样也不行,还没P104快。












