下面再讲一下目前的AI生成的技术原理,以Disco Diffusion为例,其他模型也可以参考,实现方式不同但原理类似。它本质上是通过 diffusion 和 CLIP 产出图片,前者负责无中生有的构造图片,而后者则会校验图片和文本的差距(loss),从而让 diffsuion 在一次次迭代中尽可能降低 loss,最终出一张图
CLIP 是 openAI 通过 4 亿张图片训练出来的开源模型,其发布之初,人们对其探索是有限的,随着 DD 的火爆,人们对 CLIP 的认知也在加深,例如对艺术家的描述,以及一些可以称之为 trick 的「关键词」,甚至发展出 clip 艺术家的数据库,这是人们在这个领域对 AI 模型在技术之外的首次调教,这一点,让人首次感受到 prompt 本身的艺术,也就是说,一个同样的 AI 模型放在两个人面前,一个更懂艺术家,更懂关键词效果的人,会比另一个人,让 AI 生成出更好的图。
举一个例子,同样的描述「从空中俯视的一条美丽的河流」,上面是没有艺术家的,下面是我加了川濑巴水的,同样的尺寸和配置,效果改善显著

