在 ComfyUI 中使用 SeedVR2 的一些经历
🧩 主要使用的节点依赖于以下 GitHub 项目: ComfyUI-SeedVR2_VideoUpscaler(https://github.com/numz/ComfyUI-SeedVR2_VideoUpscaler)(目前用的是实验版,支持 VAE)。
社区普遍推荐搭配 ComfyUI-VideoHelperSuite 来完成视频的帧分割与合成输出。它支持用 FFmpeg 替代 OpenCV,效率更高。另外,还可以通过 metabatch 节点控制每段渲染的帧数——这对内存管理非常关键。不过输入的视频注意对色彩空间的控制或元数据里写入色彩空间数据,否则默认输出BT709,不正确将导致色彩偏差。
💾 内存与帧数限制- 直接输出视频(非序列帧)时,内存占用较高,单次任务可处理的最大帧数如: - 64 GiB 内存 ≈ 支持 4K–6K 帧; - 96 GiB ≈ 8K 帧; - 在 128 GiB 环境下通过一些技巧成功跑完了 16K 帧。(metabatch只是减少单次分段占用的内存峰值)
⚠️ 注意一个严重问题:使用VideoHelperSuite的Combine节点合成视频时,内嵌的 FFmpeg 不会释放内存!即使清空节点缓存也无效,必须重启 ComfyUI 才能彻底释放。这是当前版本的一个问题。
个人执行多任务/长时间任务时,使用Persistent-Queue、SaveQueues、dream-video-batches和自定义节点执行任务保留以及完成单任务重启并执行下一任务,直至完成。
✅ 个人建议方案:如果帧数较多,优先选择输出 PNG 序列帧,能显著降低单次任务的内存压力,从而处理更长的视频片段,后期使用FFmpeg/达芬奇再执行合成。
🎨 模型效果对比(7B vs 3B)
- 7B / 7B-sharp:倾向于保留原始画面结构,涂抹感较弱,对细碎噪点(如低曝光产生的噪点)清理有限。对模糊文字和人脸重构能力强且不过度处理。对于模型不理解的文字结构仍会扭曲,例如一些艺术字。
- 3B:去噪力度更强,但画面细节保留能力下降,适合需要一定“磨皮”效果的场景,文字重构和人脸识别相对7B弱很多。
❗ 重要提醒:启用 VAE 会严重破坏模型对画面元素的理解和重构能力,导致细节失真,但可以极大节省显存,效果显著。
例如将一幅1920x1080的画面拆成572x572,重叠32x32。7B模型使用VAE对于纯色背景更加敏感,需要加大重叠以避免拼接处出现渐变色带或黑边。
建议慎用或关闭。
⚙️ Batch Size 与时间一致性
- 当 Batch Size 设置为 帧率 × 2 时,画面已有不错的前后一致性;
- 若提升到 帧率 × 4 至 ×10,模型能更好地根据前后帧推断模糊区域的原始内容,并进行合理填充,效果显著提升。
-随着BatchSize的加大,对于人脸的长期识别和保留也会更佳。即使非常模糊也能构建相对正常的“五官”,并且不会强行锐化太多。只有几十个甚至十几个像素的脸也会试图重建出合理的面部结构,且实际测试中较少出现‘鬼脸’现象。
🖥️ 硬件需求参考| 使用场景
| 显存需求(1080p 及以下老片) | 内存建议 ||----------------|------------------------------|----------|| “能看”级别 | 10–12 GiB | ≥32 GiB || “能用”级别 | 16–24 GiB | ≥32 GiB || 商用/高质量输出 | 40/48/80/96 GiB | ≥64 GiB |
UHD分辨率下,48GB显存,Batchsize=25,一下就溢出了,可见显存的渴望。(详细见官方gitbub)
> 注:除非分辨率极低,否则内存基本都要 32 GiB 起步,否则容易爆内存。
🧩 主要使用的节点依赖于以下 GitHub 项目: ComfyUI-SeedVR2_VideoUpscaler(https://github.com/numz/ComfyUI-SeedVR2_VideoUpscaler)(目前用的是实验版,支持 VAE)。
社区普遍推荐搭配 ComfyUI-VideoHelperSuite 来完成视频的帧分割与合成输出。它支持用 FFmpeg 替代 OpenCV,效率更高。另外,还可以通过 metabatch 节点控制每段渲染的帧数——这对内存管理非常关键。不过输入的视频注意对色彩空间的控制或元数据里写入色彩空间数据,否则默认输出BT709,不正确将导致色彩偏差。
💾 内存与帧数限制- 直接输出视频(非序列帧)时,内存占用较高,单次任务可处理的最大帧数如: - 64 GiB 内存 ≈ 支持 4K–6K 帧; - 96 GiB ≈ 8K 帧; - 在 128 GiB 环境下通过一些技巧成功跑完了 16K 帧。(metabatch只是减少单次分段占用的内存峰值)
⚠️ 注意一个严重问题:使用VideoHelperSuite的Combine节点合成视频时,内嵌的 FFmpeg 不会释放内存!即使清空节点缓存也无效,必须重启 ComfyUI 才能彻底释放。这是当前版本的一个问题。
个人执行多任务/长时间任务时,使用Persistent-Queue、SaveQueues、dream-video-batches和自定义节点执行任务保留以及完成单任务重启并执行下一任务,直至完成。
✅ 个人建议方案:如果帧数较多,优先选择输出 PNG 序列帧,能显著降低单次任务的内存压力,从而处理更长的视频片段,后期使用FFmpeg/达芬奇再执行合成。
🎨 模型效果对比(7B vs 3B)
- 7B / 7B-sharp:倾向于保留原始画面结构,涂抹感较弱,对细碎噪点(如低曝光产生的噪点)清理有限。对模糊文字和人脸重构能力强且不过度处理。对于模型不理解的文字结构仍会扭曲,例如一些艺术字。
- 3B:去噪力度更强,但画面细节保留能力下降,适合需要一定“磨皮”效果的场景,文字重构和人脸识别相对7B弱很多。
❗ 重要提醒:启用 VAE 会严重破坏模型对画面元素的理解和重构能力,导致细节失真,但可以极大节省显存,效果显著。
例如将一幅1920x1080的画面拆成572x572,重叠32x32。7B模型使用VAE对于纯色背景更加敏感,需要加大重叠以避免拼接处出现渐变色带或黑边。
建议慎用或关闭。
⚙️ Batch Size 与时间一致性
- 当 Batch Size 设置为 帧率 × 2 时,画面已有不错的前后一致性;
- 若提升到 帧率 × 4 至 ×10,模型能更好地根据前后帧推断模糊区域的原始内容,并进行合理填充,效果显著提升。
-随着BatchSize的加大,对于人脸的长期识别和保留也会更佳。即使非常模糊也能构建相对正常的“五官”,并且不会强行锐化太多。只有几十个甚至十几个像素的脸也会试图重建出合理的面部结构,且实际测试中较少出现‘鬼脸’现象。
🖥️ 硬件需求参考| 使用场景
| 显存需求(1080p 及以下老片) | 内存建议 ||----------------|------------------------------|----------|| “能看”级别 | 10–12 GiB | ≥32 GiB || “能用”级别 | 16–24 GiB | ≥32 GiB || 商用/高质量输出 | 40/48/80/96 GiB | ≥64 GiB |
UHD分辨率下,48GB显存,Batchsize=25,一下就溢出了,可见显存的渴望。(详细见官方gitbub)
> 注:除非分辨率极低,否则内存基本都要 32 GiB 起步,否则容易爆内存。
















圆周率











