stablediffusion吧 关注:45,671贴子:188,718
  • 9回复贴,共1

混合AnimagineXL模型对3D及像素画艺术图像的表现,并比较不同采

只看楼主收藏回复

标题:混合AnimagineXL模型对3D及像素画艺术图像的表现,并比较不同采样器的画面呈现
AnimagineXL是用于AI绘图工具Stable Diffusion的一款模型,风格主要为日本ACGN的插画,也就是所谓的二次元画风。在之前的一篇文章《比较AnimagineXL模型对于游戏风格、游戏主机以及奇幻世界职业相关标签的表现》中,我比较了该模型对于不同的游戏风格(3D、像素画艺术、MMORPG等)以及游戏主机平台,还有就是奇幻职业等标签的反应及表现。在之前的比较中,我注意到了该模型对于3D和像素画艺术(pixel art)有较为明显的反应。

这一次,我尝试用不同的方法来融合这两个要素,即既3D,又像素。此外,我还比较了Stable Diffusion WebUI下4种不同的采样器对于同样提示词的画面表现。
在比较过程中我生成了许多图片,并构成了一系列的对比图表。其中我最喜欢的是这一张:

虽然这不能说是一张成功的生成图,因为AI程序并没有按照我提示词的指示生成一个人。不过这张图看起来简洁、宁静、可爱,既有从近景到远景的焦外模糊的效果,也有书架线条所凸显呈现出的空间透视感。在本文下方,我也把包括这张图在内的同随机数种子、同参数的对比图表放了出来。大家可以找找看。我觉得可以说这张就是3D和像素画风格结合的一个典型效果。
我用到的提示词,正面的有:
(masterpiece), ((best quality)), detailed,fantasy world,1girl,__fantasy_world_job__,a cute slime,__fantasy_world_places__,looking at viewer,3D
负面的有:
(worst quality:1.6),(low quality:1.6), easynegative,extra limbs,(2girls),NSFW
其中__fantasy_world_job__以及__fantasy_world_places__是用到了wildcards类插件用来给每一次的对比替换一些元素。这里替换的是奇幻世界的职业以及奇幻世界的场景。

作为画面风格呈现的比较。我在Stable Diffusion webui的脚本(Script)功能中使用了X/Y/Z plot比较功能。在X方向上,我使用的语句是:3D,[3D:pixel art],[3D:pxiel art:0.2],[3D:[3D:pixel art]:0.2],pixel art;在Y方向上,我比较的是Euler、DPM++ SDE Karras、DPM++ 2M SDE Karras、UniPC这几个采样器。

我想需要说明的是X行的比较参数。其实我自己也不知道,在Stable Diffusion webui中是否支持这种混合语句的套用,更不知道将这样套用的混合语句填写入脚本(Script)功能处,是不是还能依照我的预期生效。不过至少看起来填入之后,产生了不同的画面表现。我来介绍一下其中最难的一个吧:[3D:[3D:pixel art]:0.2]。
要说难也不是很难,这个语句就是[A:B:m]内嵌[C:D]语句。具体来说,就是前20%的步骤执行3D,后80%的步骤逐步交替执行3D与pixel art。
我之所以要把3D放在开头20%的步骤执行,是因为开头的步骤往往决定了整个画面的内容布局排版。就像我在之前的文章《使用StableDiffusion的基本文生图功能绘制大致相同角色的不同表情绘图》中所展示的那样。
下面来看看比较结果(以下各对比表之间,除了随机数种子不同外,还有2个wildcards类随机抽卡元素__fantasy_world_job__以及__fantasy_world_places__的不同,不过这两个wildcards中的单词应该不会影响画面表现吧……)


IP属地:日本1楼2024-04-22 20:59回复






    IP属地:日本2楼2024-04-22 21:00
    收起回复
      2026-02-03 02:13:51
      广告
      不感兴趣
      开通SVIP免广告






      经过简单比较和观察可以看到,左右两列的3D和pixel art各自代表着非融合的两个典型。pixel art那一行的背景图倾向于呈现出平面的背景,平行于观察者的视觉平面(但并非都是如此),而带有3D的那几个替换提示词往往更容易表现出俯瞰、仰视等3D游戏常见而像素风格游戏不常见的视角表达。这正符合了我写替换提示词的预期:在多个步骤的早期阶段被执行的提示词,往往对于决定整个画面内容的布局起到了关键性作用,而靠后步骤的提示词则往往起到修饰作用。

      另外我还注意到中间那一列(即使用了[3D:pixel art:0.2]来替换的那一列)所产生的图片往往其色彩表现往往偏暗,且略有杂色,甚至有一种不明快的阴郁感。这个我还没想好怎么解释。
      总之,这一次的比较就先到这里啦。你喜欢哪一种混合语句提示词?


      IP属地:日本3楼2024-04-22 21:02
      回复
        我又来作死了,小度小度没发现。


        IP属地:广东4楼2024-04-22 21:33
        收起回复
          回去就试试😋


          IP属地:江西来自Android客户端5楼2024-04-22 22:55
          回复
            这个像素画是什么插件?


            IP属地:江西来自Android客户端6楼2024-05-23 10:06
            收起回复