bilibili吧 关注:4,703,273贴子:148,239,474
  • 8回复贴,共1

我是6pen的开发团队成员#AI绘画#

取消只看楼主收藏回复

这几天流量增长很猛,找了半天,最后发现应该是来自本吧的吧友带来的,不过我在爬楼的时候发现,很多吧友因为对AI 生成不熟悉,或者使用有一些误区,当然也包括我们缺乏足够的信息提示,导致结果非常诡异 所以我想开个贴讲一讲大概的原理,我们用的技术,我们的商业模式,我们做的哪些还可以,哪些还不行,以及分享一些好的案例,大家也可以问我任何事情,我都会回复
首先放几张从『这张真不错』中截的图(这张真不错是6pen的一个展览,用来搜集网友投稿的不错的生成图片


IP属地:四川来自iPhone客户端1楼2022-09-04 22:57回复
    首先从模型上,6pen支持南瓜,西瓜和stable diffusion这三种。南瓜是我们自研的小模型,很菜,但我们马上会对他进行船新升级,之后主打美学图像,西瓜则基于开源模型 disco diffusion,这个应该是7月之前的全球最火的AI生成模型,因为开源,所以很多人用,还有公司包装成自己的,我们也见的很多,但我们在文档中对其有明确的标记,给了GitHub链接,甚至还参与了disco diffusion的开源生态建设,贡献了一些开源代码。stable diffusion是近期接入的,接入之前我们和stable diffusion团队也有联系和确认,确保6pen对SD的使用符合规范。所以有人说6pen不行,应该用stable diffusion,我其实是很懵逼的,因为我们就支持stable diffusion啊


    IP属地:四川来自iPhone客户端13楼2022-09-04 23:06
    收起回复
      2026-03-29 23:19:05
      广告
      不感兴趣
      开通SVIP免广告
      其次是关于等待时间的说明
      显卡运算是一项成本极高的工作,以 6pen 使用的英伟达 V100 ( 32G ) 为例,其单块售价超过 6 万元,在大多数云平台上的租赁价格约为 12 元/小时起
      一个南瓜或 Stable Diffusion 任务需要耗费一台 V100 显卡 20-40 秒的时间,而西瓜则需要 4 - 7 分钟,数以万计的任务是一笔庞大的成本,即便我们通过各项优化,使得单显卡能运算多个任务,但这个成本依然巨大。
      首先,我们希望能让更多人体验到AI生成的乐趣,但这并不便宜,钱必须来自某处。
      许多公司都是由投资机构的投资「养活」的,如果你免费使用他们的服务,或者即使你为他们的付费计划支付较低的费用,他们也没有动力首先为你的需求服务。他们对投资者负责,在他们的明确(或不明确)要求下,他们可能实施你不喜欢的变化:侵入性跟踪,出售你的数据,挪用你的版权等等。
      6pen 不依赖融资生存,并在上线第一天起构建了明确的商业模式:通过出售点数获得收入,因此,6pen 也能够更加谨慎和更有底气的选择资本合作伙伴,而这一切,将激励我们更好的考虑你的需求,而不是将你作为一种资源来利用。这种财务关系对双方都更加负责。
      6pen 构建了一套「弹性算力系统」,该系统将优先照顾 Pro 通道的任务,并使之尽快完成,然后,将尽可能的完成免费通道的任务,但这套系统的上限是由 Pro 通道决定的,这是我们得以做到可持续的核心原因——我们不会为巨量的免费任务自掏太多腰包(会掏一部分)。而代价则是,在某些高峰时段,免费任务过多,而 Pro 通道任务过少,那就会有非常漫长的等待时间。
      较长的等待时间明显不是什么好的体验,为此我们也在做着努力:
      - 进一步优化单个任务的执行时间(正在进行,可能很快会有提高)
      - 提高机器利用率
      - 优化模型效果,提升付费意愿
      - 尝试构建「帮助用户赚钱」的商业模式,从而让你更愿意付费(因为你将可能获得更多
      我希望我们能在未来做得更好,并且能站着,有尊严的,赚到钱
      总的来说,这就是为什么有时候等待时间那么长的原因


      IP属地:四川来自iPhone客户端27楼2022-09-04 23:18
      回复
        下面再讲一下目前的AI生成的技术原理,以Disco Diffusion为例,其他模型也可以参考,实现方式不同但原理类似。它本质上是通过 diffusion 和 CLIP 产出图片,前者负责无中生有的构造图片,而后者则会校验图片和文本的差距(loss),从而让 diffsuion 在一次次迭代中尽可能降低 loss,最终出一张图
        CLIP 是 openAI 通过 4 亿张图片训练出来的开源模型,其发布之初,人们对其探索是有限的,随着 DD 的火爆,人们对 CLIP 的认知也在加深,例如对艺术家的描述,以及一些可以称之为 trick 的「关键词」,甚至发展出 clip 艺术家的数据库,这是人们在这个领域对 AI 模型在技术之外的首次调教,这一点,让人首次感受到 prompt 本身的艺术,也就是说,一个同样的 AI 模型放在两个人面前,一个更懂艺术家,更懂关键词效果的人,会比另一个人,让 AI 生成出更好的图。
        举一个例子,同样的描述「从空中俯视的一条美丽的河流」,上面是没有艺术家的,下面是我加了川濑巴水的,同样的尺寸和配置,效果改善显著


        IP属地:四川来自iPhone客户端39楼2022-09-05 00:04
        回复
          好多人问关于「画色图」这个问题,我觉得我还是有必要说两句
          从技术上来说,让现在的AI模型画色图,基本是一场灾难,哪怕目前公认一流水平的 Stable Diffsuion,也是一场灾难,它不仅无法满足你的幻想,还会让人生理不适
          Stable Diffusion 能这么做(即便你得不到你想要的结果)是因为它目前有个开源版本1.4,任何人都可以自己部署用自己的显卡跑,这个时候是没有NSFW检测的,我自己就是自己部署之后测试的,而你如果用官方的服务跑,那么是会有 NSFW 检测,这个检测不仅会检测色图,还会检测血暴及zz敏感,一旦命中就直接黑图,是的,人家一英国公司,审查的比可能贴吧还严。
          这不是个例,OpenAI 的审查也很严格,所以用 Dalle2 甚至之后可能更强的 Dalle3 来做色图也是不可能的
          我们作为一家中国公司,肯定也需要严格的遵纪守法,因此无论是从技术上,还是从公司存活的必要性上,我们都无法支持这样的需求,并会尽可能阻止这样的需求产出图片。
          从我个人的角度上、我认为画色图是个挺正常的需求,也无可指摘,但情况就是这么个情况,我希望之后的模型发展的更好,同时也多开源,这样可能大家可以通过自部署的方式来自娱自乐,但肯定不是由我们来提供这项服务。


          IP属地:四川56楼2022-09-05 07:51
          收起回复
            居然发了几个回复都被吞了,有点头秃


            IP属地:四川来自iPhone客户端62楼2022-09-05 09:15
            收起回复
              能看到吗


              IP属地:四川来自iPhone客户端63楼2022-09-05 09:17
              收起回复
                下面再讲一下目前的AI生成的技术原理




                IP属地:四川66楼2022-09-05 12:04
                回复
                  2026-03-29 23:13:05
                  广告
                  不感兴趣
                  开通SVIP免广告
                  我们这个之前就做了,可以关注我们公众号,这两天会发视频


                  IP属地:四川来自iPhone客户端98楼2022-09-06 08:43
                  回复