关于此丹的一点训练和使用过程:
1.素材:LZ50张图片素材集,素材质量一般,是由一张照片由seeddance2生成的14段视频的截图,lz懒没有做修复,视频截图直接拿来用了,分辨率是720p、1280x1280两种(seeddance2的人物磨皮严重你懂的实际质量非常一般),头部特写比例50%左右,腰部以上上半身30%左右,膝上半身20%左右,全身照10%左右。(实际上膝上半身到全身的素材个人觉得必要性不大,因为pony-cyberreaiistic141模型对身材的控制非常好,完全可以用提示词来控制,除非你对素材人物的原始身材非常敏感需求)。素材包括各种角度和服装,接近正脸的图片大概是一半。
2.训练步骤:50图按repeat10、epoch80、batch size 8跑,共5000步(batch size1 的话40000步),dim我设置了64、alpha32,其他的基本按套路,,实际上2300步开始就收敛完成了。这里需要说的是,以前50图我一般是40个repeat,epoch10跑,本次也是实验性质的玩,没想到效果非常不错
3.我每10个epoch保存了一个lora,其中30epoch以后的都能用,30和80epoch的效果最好,30e的作为中远距离face detailer修复用,80e的0.6权重作为近距离面部特写直出用,按照距离远近可以使用不同epoch的lora,人物一致性可以做到非常好,非常惊艳
4.实际上2500步以上的lora已经过拟合了,像40epoch的权重1是不能用的,但是降低权重的一致性非常好,泛化也很不错,测试了多套提示词服装和姿势都没无问题