【图片】我是6pen的开发团队成员#AI绘画#【bilibili吧】

bilibili吧关注：4,703,273贴子：148,239,474

8回复贴，共1页

我是6pen的开发团队成员#AI绘画#

这几天流量增长很猛，找了半天，最后发现应该是来自本吧的吧友带来的，不过我在爬楼的时候发现，很多吧友因为对AI 生成不熟悉，或者使用有一些误区，当然也包括我们缺乏足够的信息提示，导致结果非常诡异所以我想开个贴讲一讲大概的原理，我们用的技术，我们的商业模式，我们做的哪些还可以，哪些还不行，以及分享一些好的案例，大家也可以问我任何事情，我都会回复
首先放几张从『这张真不错』中截的图（这张真不错是6pen的一个展览，用来搜集网友投稿的不错的生成图片

送TA礼物

IP属地:四川

来自iPhone客户端1楼2022-09-04 22:57回复

首先从模型上，6pen支持南瓜，西瓜和stable diffusion这三种。南瓜是我们自研的小模型，很菜，但我们马上会对他进行船新升级，之后主打美学图像，西瓜则基于开源模型 disco diffusion，这个应该是7月之前的全球最火的AI生成模型，因为开源，所以很多人用，还有公司包装成自己的，我们也见的很多，但我们在文档中对其有明确的标记，给了GitHub链接，甚至还参与了disco diffusion的开源生态建设，贡献了一些开源代码。stable diffusion是近期接入的，接入之前我们和stable diffusion团队也有联系和确认，确保6pen对SD的使用符合规范。所以有人说6pen不行，应该用stable diffusion，我其实是很懵逼的，因为我们就支持stable diffusion啊

IP属地:四川

来自iPhone客户端13楼2022-09-04 23:06

收起回复

不感兴趣

开通SVIP免广告

其次是关于等待时间的说明
显卡运算是一项成本极高的工作，以 6pen 使用的英伟达 V100 ( 32G ) 为例，其单块售价超过 6 万元，在大多数云平台上的租赁价格约为 12 元/小时起
一个南瓜或 Stable Diffusion 任务需要耗费一台 V100 显卡 20-40 秒的时间，而西瓜则需要 4 - 7 分钟，数以万计的任务是一笔庞大的成本，即便我们通过各项优化，使得单显卡能运算多个任务，但这个成本依然巨大。
首先，我们希望能让更多人体验到AI生成的乐趣，但这并不便宜，钱必须来自某处。
许多公司都是由投资机构的投资「养活」的，如果你免费使用他们的服务，或者即使你为他们的付费计划支付较低的费用，他们也没有动力首先为你的需求服务。他们对投资者负责，在他们的明确(或不明确)要求下，他们可能实施你不喜欢的变化：侵入性跟踪，出售你的数据，挪用你的版权等等。
6pen 不依赖融资生存，并在上线第一天起构建了明确的商业模式：通过出售点数获得收入，因此，6pen 也能够更加谨慎和更有底气的选择资本合作伙伴，而这一切，将激励我们更好的考虑你的需求，而不是将你作为一种资源来利用。这种财务关系对双方都更加负责。
6pen 构建了一套「弹性算力系统」，该系统将优先照顾 Pro 通道的任务，并使之尽快完成，然后，将尽可能的完成免费通道的任务，但这套系统的上限是由 Pro 通道决定的，这是我们得以做到可持续的核心原因——我们不会为巨量的免费任务自掏太多腰包（会掏一部分）。而代价则是，在某些高峰时段，免费任务过多，而 Pro 通道任务过少，那就会有非常漫长的等待时间。
较长的等待时间明显不是什么好的体验，为此我们也在做着努力：
- 进一步优化单个任务的执行时间（正在进行，可能很快会有提高）
- 提高机器利用率
- 优化模型效果，提升付费意愿
- 尝试构建「帮助用户赚钱」的商业模式，从而让你更愿意付费（因为你将可能获得更多
我希望我们能在未来做得更好，并且能站着，有尊严的，赚到钱
总的来说，这就是为什么有时候等待时间那么长的原因

IP属地:四川

来自iPhone客户端27楼2022-09-04 23:18

下面再讲一下目前的AI生成的技术原理，以Disco Diffusion为例，其他模型也可以参考，实现方式不同但原理类似。它本质上是通过 diffusion 和 CLIP 产出图片，前者负责无中生有的构造图片，而后者则会校验图片和文本的差距(loss)，从而让 diffsuion 在一次次迭代中尽可能降低 loss，最终出一张图
CLIP 是 openAI 通过 4 亿张图片训练出来的开源模型，其发布之初，人们对其探索是有限的，随着 DD 的火爆，人们对 CLIP 的认知也在加深，例如对艺术家的描述，以及一些可以称之为 trick 的「关键词」，甚至发展出 clip 艺术家的数据库，这是人们在这个领域对 AI 模型在技术之外的首次调教，这一点，让人首次感受到 prompt 本身的艺术，也就是说，一个同样的 AI 模型放在两个人面前，一个更懂艺术家，更懂关键词效果的人，会比另一个人，让 AI 生成出更好的图。
举一个例子，同样的描述「从空中俯视的一条美丽的河流」，上面是没有艺术家的，下面是我加了川濑巴水的，同样的尺寸和配置，效果改善显著

IP属地:四川

来自iPhone客户端39楼2022-09-05 00:04

好多人问关于「画色图」这个问题，我觉得我还是有必要说两句
从技术上来说，让现在的AI模型画色图，基本是一场灾难，哪怕目前公认一流水平的 Stable Diffsuion，也是一场灾难，它不仅无法满足你的幻想，还会让人生理不适
Stable Diffusion 能这么做（即便你得不到你想要的结果）是因为它目前有个开源版本1.4，任何人都可以自己部署用自己的显卡跑，这个时候是没有NSFW检测的，我自己就是自己部署之后测试的，而你如果用官方的服务跑，那么是会有 NSFW 检测，这个检测不仅会检测色图，还会检测血暴及zz敏感，一旦命中就直接黑图，是的，人家一英国公司，审查的比可能贴吧还严。
这不是个例，OpenAI 的审查也很严格，所以用 Dalle2 甚至之后可能更强的 Dalle3 来做色图也是不可能的
我们作为一家中国公司，肯定也需要严格的遵纪守法，因此无论是从技术上，还是从公司存活的必要性上，我们都无法支持这样的需求，并会尽可能阻止这样的需求产出图片。
从我个人的角度上、我认为画色图是个挺正常的需求，也无可指摘，但情况就是这么个情况，我希望之后的模型发展的更好，同时也多开源，这样可能大家可以通过自部署的方式来自娱自乐，但肯定不是由我们来提供这项服务。

IP属地:四川

56楼2022-09-05 07:51

收起回复