stablediffusion吧 关注:42,860贴子:170,313

【12G显存实测】跑最新的Wan2.2文生视频、Qwen文生图

只看楼主收藏回复

自己是4070ti、12G显存、64G内存,跑了最近两个新玩意,Wan2.2 视频和 Qwen 文生图,都是用原版fp8模型(不需要啥gguf模型)。
可以说,12G显存、64G内存跑这两个没太大压力,时间也可以接受,Qwen 文生图甚至用32G内存都没问题。
供同等或相近配置朋友参考,具体见下。


IP属地:广东1楼2025-08-06 13:50回复
    先是wan2.2 文生视频。
    测试了Kijai工作流、官方工作流,以及新出的lightning加速。


    IP属地:广东2楼2025-08-06 13:51
    收起回复
      2025-12-02 12:56:38
      广告
      不感兴趣
      开通SVIP免广告
      然后是刚出来的Qwen 文生图,对中文书写非常强大。
      因为主模型fp8有19个G,所以马上就有人怯了,怕自己16G显存都跑不了,想去搞gguf啥的。没必要,当年我12G显存都照样跑22G的黑森林官方fill模型,只要你用的是Comfyui,这软件会自动帮你分配好的。
      Qwen这个,同样使用官方fp8模型,12G显存、64G内存照样跑。看我下图,32G内存也是可以跑的。



      IP属地:广东3楼2025-08-06 14:00
      收起回复
        最后还是提醒一句:
        当你显存小于模型大小时,别太担心,只要你用的是Comfyui,情况没准没你想得那么差。
        反正我测过的极限,我12G显存跑22G的flux fill 模型没问题(在时间可接受的情况下而言)


        IP属地:广东4楼2025-08-06 14:15
        收起回复
          请问下跑模型需要那么64g高内存吗?不是显存是模型大小的瓶颈吗?


          IP属地:浙江来自iPhone客户端5楼2025-08-06 14:46
          收起回复
            Wan2.2新出的5B双用模型速度超快,图生视频,32G+5080配置,出一个121帧的720P视频只要一分多钟,就是质量难绷,希望这个版本可以继续优化。而新出的14B两个组合使用的I2V模型,速度还是很慢。


            IP属地:湖北来自iPhone客户端6楼2025-08-06 14:55
            收起回复
              请问下use_non_blocking这个设为true有什么影响?我4080不知道要不要设为ture


              IP属地:湖南7楼2025-08-06 15:23
              收起回复
                跑图时间呢


                IP属地:江西来自Android客户端8楼2025-08-06 17:08
                回复
                  2025-12-02 12:50:38
                  广告
                  不感兴趣
                  开通SVIP免广告
                  反正别用kj流就行


                  IP属地:上海来自iPhone客户端9楼2025-08-06 17:42
                  回复
                    8g显存跑wan2.2 q4量化用kj流加block分块五秒视频六七分钟左右,感觉不错了


                    IP属地:山东来自Android客户端11楼2025-08-06 19:36
                    回复
                      原来破站上某up下留言的图是你


                      IP属地:广西来自Android客户端12楼2025-08-06 21:11
                      收起回复


                        IP属地:广东13楼2025-08-06 23:41
                        收起回复
                          为什么我生成的视频是马赛克啊(大致能看出来视频中的动作),原图输入1920*1080,resize到854*480,求教如何排查问题


                          IP属地:陕西14楼2025-08-07 03:38
                          收起回复
                            步数过少?


                            IP属地:广东15楼2025-08-07 09:14
                            回复
                              2025-12-02 12:44:38
                              广告
                              不感兴趣
                              开通SVIP免广告
                              关于文生视频。
                              虽然本帖上面都是在说速度问题,但生视频,还有另外一端要关注,就是画质、提示词遵从程度、视频动态。最近在网上看了一些朋友的实验,好像基本得出一个结论:Wan2.2的【高噪】部分,如果串上【加速Lora】,无论你是官方lora还是KJ的lora,无论是新lora还是老lora,那画质、提示词遵从度、视频动态都会受到很大影响。如果提示词动态描述不够丰富时,视频可能会动态全无,一动不动的。
                              下面我用我12G显存、64G内存的配置来做做实验,你们也可以来实验下,看看是否如此。我们先选用一个简短的、有动态的提示词。看看在这么简短的提示词下,Wan2.2的各种工作流,是否都能很好地遵从提示词,是否能很好地展现动态(以下所有测试均使用同一个种子数值):
                              【提示词】自然光,阴天,柔光,手持镜头,特写人物表情,一个中国士兵坚毅地眼神,他戴着头盔,手持冲锋枪正在冲锋,脸上抹着迷彩,摇晃的镜头,跟随拍摄,天空阴霾,下着大雨。
                              ------------------------------------------------------------
                              一、KJ流。KJ的主模型,864x480,帧率16,总共81帧,时长5秒,4+4步,高低噪均串上老lora【lightx2v_T2V_14B_cfg_step_distill_v2_lora_rank128_bf16.safetensors】(高权重3、低权重1),表现如下。可以看到,画面整体较明亮,画质也算清晰,但是,“冲锋”、“摇晃的镜头”,这些动态没有表现出来,视频完全缺失了动态,未遵从提示词。

                              二、KJ流。KJ的主模型,864x480,帧率16,总共81帧,时长5秒,4+4步,高低噪均串上KJ的新lora【Wan2.2-Lightning_T2V-A14B-4steps-lora_HIGH/LOW_fp16.safetensors】(高权重1、低权重1),表现如下。可以看到,画面整体明亮,画质清晰,但是和上面一样,“冲锋”、“摇晃的镜头”,这些动态没有表现出来,视频完全缺失了动态,比上面还严重,完全未遵从提示词。

                              三、官方流。官方的主模型,864x480,帧率16,总共81帧,时长5秒,6+4步,按照T8的最速推荐设置,高低噪均串上KJ的新lora【Wan2.2-Lightning_T2V-A14B-4steps-lora_HIGH/LOW_fp16.safetensors】(高权重2、低权重2),表现如下。可以看到,画面整体明亮,画质清晰,但是和前两者一样,“冲锋”、“摇晃的镜头”,这些动态没有表现出来,视频完全缺失了动态,比上面两者还严重,完全未遵从提示词。

                              四、官方变体流。这是由b站up“Alwood爱屋研究室”提出来的,官方的主模型,高噪使用【wan2.2_t2v_high_noise_14B_fp8_scaled.safetensors】,低噪则换回Wan2.1的【ComfyUI-wan2.1_t2v_14B_fp8_e4m3fn.safetensors】,832x480,帧率16,总共81帧,时长5秒,6+4步,整个工作流未使用任何加速,只在低噪主模型上串了一个老lora【lightx2v_T2V_14B_cfg_step_distill_v2_lora_rank128_bf16.safetensors】(权重1),表现如下。可以看到,画面明亮度、清晰度都不如上面三者,但画面更具电影质感了。最关键的是,提示词中的“冲锋”、“摇晃的镜头”,这些动态都表现出来了,提示词遵从度很高,视频动态丰富。(雨水似乎没表现出来)

                              下面是这个工作流:

                              也看了该up贴出的该工作流生成的其他一些视频,的确动态都很好,见下:



                              该工作流生成的画面,电影质感、动态都很好,但因为整个工作流只在低噪主模型处串了一个加速lora,其他啥都没,所以速度巨慢。我前面三个工作流生成士兵的那个视频,基本都是200多秒,这个工作流生成上面士兵的视频,用了600多秒。
                              针对这一问题,我试着将高、低噪主模型均串上sageattention2.2的那个节点【Patch Sage Attention KJ】,看看画质、动态和耗时怎么样,结论是画质、动态不怎么受影响,且耗时大幅减少至300多秒(头盔上可见雨水),见下:


                              IP属地:广东16楼2025-08-09 13:42
                              收起回复