关于文生视频。
虽然本帖上面都是在说速度问题,但生视频,还有另外一端要关注,就是画质、提示词遵从程度、视频动态。最近在网上看了一些朋友的实验,好像基本得出一个结论:Wan2.2的【高噪】部分,如果串上【加速Lora】,无论你是官方lora还是KJ的lora,无论是新lora还是老lora,那画质、提示词遵从度、视频动态都会受到很大影响。如果提示词动态描述不够丰富时,视频可能会动态全无,一动不动的。
下面我用我12G显存、64G内存的配置来做做实验,你们也可以来实验下,看看是否如此。我们先选用一个简短的、有动态的提示词。看看在这么简短的提示词下,Wan2.2的各种工作流,是否都能很好地遵从提示词,是否能很好地展现动态(以下所有测试均使用同一个种子数值):

【提示词】自然光,阴天,柔光,手持镜头,特写人物表情,一个中国士兵坚毅地眼神,他戴着头盔,手持冲锋枪正在冲锋,脸上抹着迷彩,摇晃的镜头,跟随拍摄,天空阴霾,下着大雨。
------------------------------------------------------------
一、KJ流。KJ的主模型,864x480,帧率16,总共81帧,时长5秒,4+4步,高低噪均串上老lora【lightx2v_T2V_14B_cfg_step_distill_v2_lora_rank128_bf16.safetensors】(高权重3、低权重1),表现如下。可以看到,画面整体较明亮,画质也算清晰,但是,“冲锋”、“摇晃的镜头”,这些动态没有表现出来,视频完全缺失了动态,未遵从提示词。

二、KJ流。KJ的主模型,864x480,帧率16,总共81帧,时长5秒,4+4步,高低噪均串上KJ的新lora【Wan2.2-Lightning_T2V-A14B-4steps-lora_HIGH/LOW_fp16.safetensors】(高权重1、低权重1),表现如下。可以看到,画面整体明亮,画质清晰,但是和上面一样,“冲锋”、“摇晃的镜头”,这些动态没有表现出来,视频完全缺失了动态,比上面还严重,完全未遵从提示词。

三、官方流。官方的主模型,864x480,帧率16,总共81帧,时长5秒,6+4步,按照T8的最速推荐设置,高低噪均串上KJ的新lora【Wan2.2-Lightning_T2V-A14B-4steps-lora_HIGH/LOW_fp16.safetensors】(高权重2、低权重2),表现如下。可以看到,画面整体明亮,画质清晰,但是和前两者一样,“冲锋”、“摇晃的镜头”,这些动态没有表现出来,视频完全缺失了动态,比上面两者还严重,完全未遵从提示词。

四、官方变体流。这是由b站up“Alwood爱屋研究室”提出来的,官方的主模型,高噪使用【wan2.2_t2v_high_noise_14B_fp8_scaled.safetensors】,低噪则换回Wan2.1的【ComfyUI-wan2.1_t2v_14B_fp8_e4m3fn.safetensors】,832x480,帧率16,总共81帧,时长5秒,6+4步,整个工作流未使用任何加速,只在低噪主模型上串了一个老lora【lightx2v_T2V_14B_cfg_step_distill_v2_lora_rank128_bf16.safetensors】(权重1),表现如下。可以看到,画面明亮度、清晰度都不如上面三者,但画面更具电影质感了。最关键的是,提示词中的“冲锋”、“摇晃的镜头”,这些动态都表现出来了,提示词遵从度很高,视频动态丰富。(雨水似乎没表现出来)

下面是这个工作流:

也看了该up贴出的该工作流生成的其他一些视频,的确动态都很好,见下:



该工作流生成的画面,电影质感、动态都很好,但因为整个工作流只在低噪主模型处串了一个加速lora,其他啥都没,所以速度巨慢。我前面三个工作流生成士兵的那个视频,基本都是200多秒,这个工作流生成上面士兵的视频,用了600多秒。
针对这一问题,我试着将高、低噪主模型均串上sageattention2.2的那个节点【Patch Sage Attention KJ】,看看画质、动态和耗时怎么样,结论是画质、动态不怎么受影响,且耗时大幅减少至300多秒(头盔上可见雨水),见下:
