混合AnimagineXL模型对3D及像素画艺术图像的表现，并比较不同采_stablediffusion吧

stablediffusion吧关注：53,949贴子：229,748

9回复贴，共1页

混合AnimagineXL模型对3D及像素画艺术图像的表现，并比较不同采

标题：混合AnimagineXL模型对3D及像素画艺术图像的表现，并比较不同采样器的画面呈现
AnimagineXL是用于AI绘图工具Stable Diffusion的一款模型，风格主要为日本ACGN的插画，也就是所谓的二次元画风。在之前的一篇文章《比较AnimagineXL模型对于游戏风格、游戏主机以及奇幻世界职业相关标签的表现》中，我比较了该模型对于不同的游戏风格（3D、像素画艺术、MMORPG等）以及游戏主机平台，还有就是奇幻职业等标签的反应及表现。在之前的比较中，我注意到了该模型对于3D和像素画艺术（pixel art）有较为明显的反应。

这一次，我尝试用不同的方法来融合这两个要素，即既3D，又像素。此外，我还比较了Stable Diffusion WebUI下4种不同的采样器对于同样提示词的画面表现。
在比较过程中我生成了许多图片，并构成了一系列的对比图表。其中我最喜欢的是这一张：

虽然这不能说是一张成功的生成图，因为AI程序并没有按照我提示词的指示生成一个人。不过这张图看起来简洁、宁静、可爱，既有从近景到远景的焦外模糊的效果，也有书架线条所凸显呈现出的空间透视感。在本文下方，我也把包括这张图在内的同随机数种子、同参数的对比图表放了出来。大家可以找找看。我觉得可以说这张就是3D和像素画风格结合的一个典型效果。
我用到的提示词，正面的有：
(masterpiece), ((best quality)), detailed,fantasy world,1girl,__fantasy_world_job__,a cute slime,__fantasy_world_places__,looking at viewer,3D
负面的有：
(worst quality:1.6),(low quality:1.6), easynegative,extra limbs,(2girls),NSFW
其中__fantasy_world_job__以及__fantasy_world_places__是用到了wildcards类插件用来给每一次的对比替换一些元素。这里替换的是奇幻世界的职业以及奇幻世界的场景。

作为画面风格呈现的比较。我在Stable Diffusion webui的脚本（Script）功能中使用了X/Y/Z plot比较功能。在X方向上，我使用的语句是：3D,[3D:pixel art],[3D:pxiel art:0.2],[3D:[3D:pixel art]:0.2],pixel art；在Y方向上，我比较的是Euler、DPM++ SDE Karras、DPM++ 2M SDE Karras、UniPC这几个采样器。

我想需要说明的是X行的比较参数。其实我自己也不知道，在Stable Diffusion webui中是否支持这种混合语句的套用，更不知道将这样套用的混合语句填写入脚本（Script）功能处，是不是还能依照我的预期生效。不过至少看起来填入之后，产生了不同的画面表现。我来介绍一下其中最难的一个吧：[3D:[3D:pixel art]:0.2]。
要说难也不是很难，这个语句就是[A:B:m]内嵌[C:D]语句。具体来说，就是前20%的步骤执行3D，后80%的步骤逐步交替执行3D与pixel art。
我之所以要把3D放在开头20%的步骤执行，是因为开头的步骤往往决定了整个画面的内容布局排版。就像我在之前的文章《使用StableDiffusion的基本文生图功能绘制大致相同角色的不同表情绘图》中所展示的那样。
下面来看看比较结果（以下各对比表之间，除了随机数种子不同外，还有2个wildcards类随机抽卡元素__fantasy_world_job__以及__fantasy_world_places__的不同，不过这两个wildcards中的单词应该不会影响画面表现吧……）

送TA礼物

IP属地:日本

1楼2024-04-22 20:59回复

IP属地:日本

2楼2024-04-22 21:00

收起回复

不感兴趣

开通SVIP免广告

经过简单比较和观察可以看到，左右两列的3D和pixel art各自代表着非融合的两个典型。pixel art那一行的背景图倾向于呈现出平面的背景，平行于观察者的视觉平面（但并非都是如此），而带有3D的那几个替换提示词往往更容易表现出俯瞰、仰视等3D游戏常见而像素风格游戏不常见的视角表达。这正符合了我写替换提示词的预期：在多个步骤的早期阶段被执行的提示词，往往对于决定整个画面内容的布局起到了关键性作用，而靠后步骤的提示词则往往起到修饰作用。