图1崽子镇楼

近些日子lz看到越来越多的毛毛up主在分享一些由AI生成的图片、短视频,再联想到前几年海内外多个作画委托平台发起的抵制AI的活动,不由得有一些感慨,于是想分享一下自己对于AI技术的一些看法与观点,也非常欢迎8u们来一起分享见解、一起讨论。
开始之前先叠个甲,lz接触fur圈比较晚,但米、闲鱼、私人群等平台约稿大大小小加起来也有小四位数了,且从未将约稿画作在公共社交平台、在线AI服务平台发布过。lz非常能够理解画师们对于文生图技术的抵触,这一点会在后面详细展开说。总之,lz并不是疯狂崇拜AI技术且无视其带来的隐患和风险的人。
接下是正文。
lz是某四非中外合作准博士研究生,研究方向是多模态大模型,但平时也对其它技术有所涉猎。lz在本科的时候就已经开始接触各类AI技术,从最早的以卷积为主的计算机视觉,到22年、23年Stable Diffusion与ControlNet的文生图模型火爆全球,也算是见证了一波又一波AI发展的高潮。以文生图技术为例,lz因为是工科出身,绘画能力聊胜于无,因此最开始并不反感这类技术,因为文生图模型带给lz的只有利没有弊。但在了解了2022年底从欧美圈开始对平台未经画师授权扒取其画作用于AI训练的声讨后,楼主认为这项技术的确对画师们非常不公平,无论是出于伦理道德,还是对行业发展。至于为什么,下文会展开聊。
自此开始,AI作画在全球火爆,一发不可收拾。但是由于当时模型架构、数据质量的局限性,从22年到24年底,其实文生图、图生图技术也还停留在多次采样抽奖(每次同时生成几十张图,选最合适的一张)才能出一张合适的图片的地步。且由于Stable Diffusion 由开源转向闭源,AI作画平台如MidJourney、Stability AI等订阅费极其昂贵(高分辨率图片一次约1块钱),所以这项技术对传统的委托-作画-交付的模式冲击有限(并不是没有)。但今年年中到现在出现的各类技术,如谷歌的nano banana (见本贴图2),字节的即梦4.0(见本帖图3),亦或是各类短视频生成模型(Veo等),已经能够实现对图片指定区域的精准修改,亦或是从多个图片中提取准确的特征并融合(风格融合、人物融合),这些技术在某种程度上已经达到了让即使是完全没有作画经验的人,也可以根据一些例图快速地上手,通过ai模型获得满意的画作的能力(参考本帖图2,根据单图中特定角色精准生成的例图,这只是其中之一的例子)。这让lz对画师们、以及正在学习作画艺术的同学们感到一些担忧,AI技术正在飞速发展,目前模型展现出来的其实也只是先导性的技术,它们现在还有极高的成本代价的约束。但一年、两年、三年以后呢?真不太好说吧。为什么lz感到担忧呢?因为lz认为,至少对于ai作画而言,目前的技术发展并非是“可循环”的。
接下来讲讲为什么lz认为目前文生图技术的上下端并不“健康”。以文生文技术举例作对比,从google的BERT到OpenAI的ChatGPT问世,也不过短短三年时间。文生文技术的发展给人的冲击其实远大于文生图,它可以做到多事情,也能取代很多人。但却很少有人站出来说文生文技术侵犯了自己的某某权益,为什么呢?要了解这一点,我们需要大概知道,‘AI模型’是如何被训练出来的。对于文生文模型,也就是目前大家讲的‘大模型’而言,训练数据其实就是文本,而且是来自全世界各地、各用户的文本。在大模型的预训练中,需要用到海量的文本作为训练数据以强化大模型对于语言语义的感知。换句话说,点进帖子的每一位8u,你们在公共网络平台的每一次发言,在贴吧的每一次评论,网购的每一次差评贴,都可能会成为大模型预训练的“养料”的一部分。至此为止,大模型之于其训练数据的源头的关系其实和文生图类似。我们每个人都是大模型体系下的“画师”,我们的画作可能会被拿去作为训练数据,被撕碎、瓦解、缝合的数据。但是,我们在是其训练数据的贡献者的同时,其实每个人也都可以成为大模型的使用者、受益者。从初高中学生用大模型搜题,到使用大模型替代百度百科,亦或是对大模型进行某种猫娘式的调教,这都是我们从训练好的大模型身上所得到的、所收益的。我们在不经意间的行为,培养出了具有一定程度的通用智能的大模型,且大模型能够反过来为我们提供各种服务或帮助,这无疑是极其正向的循环,也是相对而言更加健康的产业上下游关系。
字数限制,接下文请看评论1楼!
此处是结尾:
undefined





近些日子lz看到越来越多的毛毛up主在分享一些由AI生成的图片、短视频,再联想到前几年海内外多个作画委托平台发起的抵制AI的活动,不由得有一些感慨,于是想分享一下自己对于AI技术的一些看法与观点,也非常欢迎8u们来一起分享见解、一起讨论。
开始之前先叠个甲,lz接触fur圈比较晚,但米、闲鱼、私人群等平台约稿大大小小加起来也有小四位数了,且从未将约稿画作在公共社交平台、在线AI服务平台发布过。lz非常能够理解画师们对于文生图技术的抵触,这一点会在后面详细展开说。总之,lz并不是疯狂崇拜AI技术且无视其带来的隐患和风险的人。
接下是正文。
lz是某四非中外合作准博士研究生,研究方向是多模态大模型,但平时也对其它技术有所涉猎。lz在本科的时候就已经开始接触各类AI技术,从最早的以卷积为主的计算机视觉,到22年、23年Stable Diffusion与ControlNet的文生图模型火爆全球,也算是见证了一波又一波AI发展的高潮。以文生图技术为例,lz因为是工科出身,绘画能力聊胜于无,因此最开始并不反感这类技术,因为文生图模型带给lz的只有利没有弊。但在了解了2022年底从欧美圈开始对平台未经画师授权扒取其画作用于AI训练的声讨后,楼主认为这项技术的确对画师们非常不公平,无论是出于伦理道德,还是对行业发展。至于为什么,下文会展开聊。
自此开始,AI作画在全球火爆,一发不可收拾。但是由于当时模型架构、数据质量的局限性,从22年到24年底,其实文生图、图生图技术也还停留在多次采样抽奖(每次同时生成几十张图,选最合适的一张)才能出一张合适的图片的地步。且由于Stable Diffusion 由开源转向闭源,AI作画平台如MidJourney、Stability AI等订阅费极其昂贵(高分辨率图片一次约1块钱),所以这项技术对传统的委托-作画-交付的模式冲击有限(并不是没有)。但今年年中到现在出现的各类技术,如谷歌的nano banana (见本贴图2),字节的即梦4.0(见本帖图3),亦或是各类短视频生成模型(Veo等),已经能够实现对图片指定区域的精准修改,亦或是从多个图片中提取准确的特征并融合(风格融合、人物融合),这些技术在某种程度上已经达到了让即使是完全没有作画经验的人,也可以根据一些例图快速地上手,通过ai模型获得满意的画作的能力(参考本帖图2,根据单图中特定角色精准生成的例图,这只是其中之一的例子)。这让lz对画师们、以及正在学习作画艺术的同学们感到一些担忧,AI技术正在飞速发展,目前模型展现出来的其实也只是先导性的技术,它们现在还有极高的成本代价的约束。但一年、两年、三年以后呢?真不太好说吧。为什么lz感到担忧呢?因为lz认为,至少对于ai作画而言,目前的技术发展并非是“可循环”的。
接下来讲讲为什么lz认为目前文生图技术的上下端并不“健康”。以文生文技术举例作对比,从google的BERT到OpenAI的ChatGPT问世,也不过短短三年时间。文生文技术的发展给人的冲击其实远大于文生图,它可以做到多事情,也能取代很多人。但却很少有人站出来说文生文技术侵犯了自己的某某权益,为什么呢?要了解这一点,我们需要大概知道,‘AI模型’是如何被训练出来的。对于文生文模型,也就是目前大家讲的‘大模型’而言,训练数据其实就是文本,而且是来自全世界各地、各用户的文本。在大模型的预训练中,需要用到海量的文本作为训练数据以强化大模型对于语言语义的感知。换句话说,点进帖子的每一位8u,你们在公共网络平台的每一次发言,在贴吧的每一次评论,网购的每一次差评贴,都可能会成为大模型预训练的“养料”的一部分。至此为止,大模型之于其训练数据的源头的关系其实和文生图类似。我们每个人都是大模型体系下的“画师”,我们的画作可能会被拿去作为训练数据,被撕碎、瓦解、缝合的数据。但是,我们在是其训练数据的贡献者的同时,其实每个人也都可以成为大模型的使用者、受益者。从初高中学生用大模型搜题,到使用大模型替代百度百科,亦或是对大模型进行某种猫娘式的调教,这都是我们从训练好的大模型身上所得到的、所收益的。我们在不经意间的行为,培养出了具有一定程度的通用智能的大模型,且大模型能够反过来为我们提供各种服务或帮助,这无疑是极其正向的循环,也是相对而言更加健康的产业上下游关系。
字数限制,接下文请看评论1楼!
此处是结尾:
undefined


