国产动画吧 关注:268,098贴子:24,948,168
  • 3回复贴,共1

简单科普下AI,回敬一下某些只会拉黑的AI文盲

只看楼主收藏回复

首先,这只是个不完整,同时主要信息也只截至2024年九月的,和国漫相关的,AI的简要介绍。目的是为了感兴趣的人能够了解一二,同时让某些整天那AI到处喷的人能够哪怕生起一点羞愧之心,而在下次喷之前多了解一点AI再言之有物地喷。
现阶段国漫可以使用到的AI主要包含了,文字生成AI(ChatGPT,Claude, 国内的Qwen等),文生图AI/图生图AI(开源权重可商业化的Stable Diffusion 1.5, Stable Diffusion XL, Flux Schnell, 和闭源使用API服务的Midjourney, Flux Pro),以及文生视频/图生视频AI (runway, 可灵Kling,等)。包含音频的还有各种生成音乐的。
其中,现阶段讨论最多的事文生图大类的,所以主要介绍这个部分。


IP属地:中国香港1楼2024-10-10 01:47回复
    文生图的基础原理,要了解AI的强项和弱项,需要简要了解AI的原理。
    >
    首先是现阶段常见文生图技术的基础,隐空间扩散模型(Latent DIffusion Model, LDM),其中分成两个要点。
    1. 隐空间:隐空间指的是和所见即所得的图片这个像素空间相对应的数据空间。换句话说,直观的图片转成某种不直观的若干数字合在一起的高维矩阵,就是转换到隐空间
    2. 扩散模型:扩散就跟物理里的扩散类似,把一滴墨水滴在一杯水里,一步一步各个墨水粒子按照某些规律逐渐分散开来,形成一堆混在一起的“混乱物”。而AI的扩散就是类似反过来的过程,把一堆混乱物逐渐反推到原始墨水滴入时的形状。而这个反向的过程称之为降噪。
    >
    于是一个典型的文生图的流程是:
    1. 文字,编码为,代表文字含义的向量,留着给之后的降噪。
    2. 一张新生成的隐空间里的“噪声图”,通过AI模型重复N次,每次输入是上一次的输出的降噪过程,每次降噪的过程中会同步输入之前的文字得到的向量,使得我们生成的图片可以符合我们的文字输入。这个步骤最终生成一个隐空间内的图片。
    3. 把最终的降噪后的隐空间内的图片解码,就成了我们所见的各种帅哥美女,各种风景图了。


    IP属地:中国香港2楼2024-10-10 02:05
    回复
      2026-01-25 15:27:17
      广告
      不感兴趣
      开通SVIP免广告
      所以如果要结合AI的原理,给AI在国漫里面应用涉及到的一些问题提出疑问,一些显而易见的可以着手的角度有:
      1. 隐空间真的能够表达国漫所需要的图像吗?
      2. 文字引导降噪的过程,如何确保文字可以和图片有强相关性,如何确保文字内容可以准确表达在图片上。
      3. 使用者如何组织文字,可以使得模型更好地符合使用者的心意去工作。
      等等。


      IP属地:中国香港3楼2024-10-10 02:10
      回复
        除了以上和生成式AI相关的应用外,更符合传统CG流程的AI技术,比如AI渲染(可微渲染),AI动捕,AI插帧等技术,也可以很好地运用在动画制作中。


        IP属地:中国香港4楼2024-10-10 02:13
        回复