作者:Wheart
最近一年,随着AIGC技术的发展壮大,越来越多的人感受到了它的恐怖之处。AI降低了创作门槛,使每个普通人都有机会展现自己的创造力,做出不输专业水平的作品。但是就在全民AI作图的进程中,艺术家好像与其站在了对立面。
以StableDiffusion和Midjourney为代表的业内巨头经常受到艺术家们的集体抵制!究其原因无非两点:一是这些模型在未经允许的情况下使用艺术家的作品进行训练,做出的图片与艺术家风格极其类似,涉嫌侵权;二是某些传统艺术家认为,AI只是对图片进行简单的拼接,不能算是艺术,它的滥用导致艺术市场震荡,出现“劣币驱逐良币”的现象。
综合来看,现在的AIGC市场就像一个怀揣着炸弹的巨人,外表看过去非常强大,但是内部有尚未解决的致命威胁,如果这个威胁不解除,行业发展终究受限,本文将详细聊聊出现这种情况的前因后果,并给出可能的解决方案。
最近越来越多的画家发现,StableDiffusion等AIGC模型使用的数据集里有自己的作品,并且这里不乏作者经过数十年的摸索形成的具有自己独特的风格画作,现在人们可以利用AI几秒钟生成相同风格的内容,这对艺术家来说显然是不公平的。
这引发了艺术家非常严重的担忧:他们自己的艺术正在被用来训练一个有朝一日可能会影响他们生计的计算机程序。更急迫的是,任何使用StableDiffusion或DALL-E等系统生成图像的人都拥有对生成图像的版权和所有权。一位插画师对此解释道:人们会使用AI生成图书封面、文章插图等内容,这将威胁他们的生计,毕竟站在购买者视角,当你可以免费在1000张图里挑来挑去时,为什么要付1000美元给创作者?况且这些艺术家都是在不知情的情况下进行的。
DigiDaigaku 母公司 Limit Break 完成对 NFT 平台 FreeNFT 的收购:金色财经报道,NFT 项目 DigiDaigaku 母公司 Limit Break 首席执行官 Gabriel Leydon 发推称,Limit Break 已完成对 NFT 平台 FreeNFT 的收购,拟具体收购金额暂未对外公布。FreeNFT 是一个 Free to Own 生态的 Launchpad,DigiDaigaku 曾在该平台上抽奖。
收购完成后,FreeNFT 仍将免费供开发人员使用,Limit Break 除了营销和内容创作协助之外,还将为该平台提供智能合约服务,包括合约编写、铸币托管、集成 ERC-721、以及可编程版税解决方案。[2023/3/15 13:05:27]
对于这个问题,StabilityAI创始人兼首席执行官EmadMostaque表示,艺术只是StableDiffusion背后的LAION训练数据的一小部分,艺术类图片占数据集的比例远低于0.1%,并且只有在用户选择调用时才会创建。但是一些搜索工具收集的数据表明,在世艺术家的很多画作都在数据集之中,几千张画作的情况并不少见。
技术是原罪?
这个问题的出现不是偶然,而是必然,也是AI发展无法绕开的问题,要想详细了解缘由,我们或许可以通过AIGC技术原理与发展路径窥探一二。
AIGC是利用人工智能技术来生成内容。2021年之前,AIGC生成的主要还是文字,而新一代模型可以处理的格式内容包括:文字、声音、图像、视频、动作等等。AIGC被认为是继专业生产内容、用户生产内容之后的新型内容创作方式,可以在创意、表现力、迭代、传播、个性化等方面,充分发挥技术优势。2022年AIGC发展速度惊人,年初还处于技艺生疏阶段,几个月之后就达到专业级别,足以以假乱真。
2014年提出的“对抗生成网络”GAN。
GAN的基本原理其实非常简单,这里以生成图片为例进行说明。假设我们有两个网络,G和D。正如它的名字所暗示的那样,G是一个生成图片的网络,它接收一个随机的噪声z,通过这个噪声生成图片,记做G(z)。D是一个判别网络,判别一张图片是不是“真实的”。它的输入参数是x,x代表一张图片,输出D(x)代表x为真实图片的概率,如果为1,就代表100%是真实的图片,而输出为0,就代表不可能是真实的图片。在训练过程中,生成网络G的目标就是尽量生成真实的图片去判别网络D。而D的目标就是尽量把G生成的图片和真实的图片分别开来。这样,G和D构成了一个动态的“博弈过程”。最后博弈的结果是什么?在最理想的状态下,G可以生成足以“以假乱真”的图片G(z)。对于D来说,它难以判定G生成的图片究竟是不是真实的,因此D(G(z))=0.5。
共26枚DigiDaigaku以369.52 ETH在Gem平台被匿名卖家购入:8月30日消息,据 Etherscan 数据显示,匿名买家(地址为 0x4dbe965abcb9ebc4c6e9d95aeb631e5b58e70d5b)通过 Gem 以 369.52 ETH(约合 56 万美元)购买了 26 枚 DigiDaigaku 系列 NFT。另据 OpenSea 数据,截至发文时该项目地板价暂报 16.8 ETH。[2022/8/30 12:56:18]
这样我们的目的就达成了:我们得到了一个生成式的模型G,它可以用来生成图片。
但是GAN有三个不足:一是对输出结果的控制力较弱,容易产生随机图像;二是生成的图像分别率较低;三是由于GAN需要用判别器来判断生产的图像是否与其他图像属于同一类别,这就导致生成的图像是对现有作品的模仿,而非创新。因此依托GAN模型难以创作出新图像,也不能通过文字提示生成新图像。
在2021年,OpenAI团队将跨模态深度学习模型CLIP进行开源。CLIP模型能够将文字和图像进行关联,首先收集4亿未清洗的图像+文本pair的数据集,进行预训练以完成任务。用对比学习目标进行训练:分别对图像和文本编码,然后两两计算cosine相似度,再针对每个图片的一行或文本的一列进行分类,找出匹配的正例。每个图像都有32,768个文本候选,是SimCLR的两倍,负例个数的增多也是效果好的原因之一。在预测时也很简单,找一个图像分类的数据集,把label转为自然语言,比如“狗”可以转为“一张狗的照片”。再用预训练好的编码器对label和图像编码,再去计算相似度即可。
算法的总体过程可以总结为:输入图片,预测在32768个随机采样的文本片段集中,哪一个实际上与数据集配对。因为是文本描述不是具体的类别,所以可以在各种图像分类任务上进行zero-shot,其中Zero-Shot是一种迁移学习,描述一只斑马,可以用“马的轮廓+虎的皮毛+熊猫的黑白”,生成新的类别,普通的有监督分类器都可以将马、老虎、熊猫的图片正确分类,但遇到没有学习过的斑马的照片却无法分类,但是斑马却和已分类的图像有共同点,可以推理出这一新的类别。
声音 | Ira Kleiman方律师:Craig Wright仅提供了1.6万多个BTC地址清单,但无中间人信息:在由Coindesk上传的一份新文件中,Ira Kleiman的律师称,Craig Wright只提供了16,404个比特币地址清单,但没有关于“保税快递”中间人的信息。原告要求Craig Wright在10天之内回应7条关于中间人的质询,之后原告将利用这些答复来获取有关“保税快递”中间人的信息。在此期间,原告正在请专家审查和分析这份清单。据此前CoinDesk报道,根据1月14日向美国佛罗里达州南部地区法院提交的一份法庭文件,第三方“提供了解锁加密文件所需的信息和密钥片段”,似乎是指此前提及的备受期待的“保税快递员”中间人,表示CSW拥有解锁96亿美元比特币所需的私钥。Bloom法官对保税快递公司的存在和比特币争议的数量表示怀疑。CSW此前因未能出示其所持比特币的完整清单而被判藐视法庭。[2020/1/15]
所以思路就是:设置类别更细粒度的属性,以建立测试集与训练集之间的联系。比如将马的特征向量转换到语义空间,每一维代表一个类别的描述,,熊猫就是,这样定义一个斑马的向量,通过对比输入图片的向量与斑马向量之间的相似度就可以进行判别。
因此,CLIP模型具备两个优势:一方面同时进行自然语言理解和计算机视觉分析,实现图像和文本匹配。另一方面为了有足够多标记好的“文本-图像”进行训练,CLIP模型广泛利用互联网上的图片,这些图片一般都带有各种文本描述,成为CLIP天然的训练样本。据统计,CLIP模型搜集了网络上超过40亿个“文本-图像”训练数据,这为后续AIGC尤其是输入文本生成图像/视频应用的落地奠定了基础。
随后出现的Diffusion扩散模型,则真正让文本生成图像的AIGC应用为大众所熟知,也是2022年下半年StableDiffusion应用的重要技术内核。
声音 | Craig Wright:吴忌寒从未与ABC保持一致:据AMBCrypto消息,最近在比特币极限主义者Tone Vays主持的一个视频上,比特币中本聪的BCH区块链视觉实施的忠实信仰者Craig Wright谈论了即将到来的BCH硬分叉及相关问题。Craig Wright首先表达了他与吴忌寒的关系,他说道:“我和吴忌寒从来就不是好朋友......吴忌寒从没有与ABC保持一致”。他还谈到他已经计划了一条尝试将BTC扩大的路子,并表示自己不想要一年前发生的分离,他补充道:“不幸的是,我们已经和吴忌寒讨论了这一切,并认为他将支持和想要扩大,但是我们发现,那个时候吴忌寒低估了这一切。吴忌寒实际上想要分离,他不想要分叉。所以,一年前发生在BTC上的——BCH分离部分其实是吴忌寒需要的一种Segwit和允许ASIC提升的延展性修正的形式。”[2018/11/12]
扩散模型的灵感来自于非平衡热力学。定义了一个扩散步骤的马尔可夫链,慢慢地向真实数据中添加随机噪声,然后学习反向扩散过程,从噪声中构建所需的数据样本。
前向过程是不断加噪的过程,加入的噪声随着时间步增加增多,根据马尔可夫定理,加噪后的这一时刻与前一时刻的相关性最高也与要加的噪音有关
逆向过程是从一个随机噪声开始,逐步还原成不带噪音的原始图片——去噪并实时生成数据。这里我们需要知道全部的数据集,所以需要学习一个神经网络模型来近似这些条件概率,来运行反向扩散过程。
Craig Wright:只交易有价值的东西:自称比特币“创始人”的Craig Wright 在其社交媒体表示:“长线是不可避免的,如果认为市场是 有趣的,那就是错误的。只为价值进行交易,不认为能创造价值的就不要冒险了。我不交易,我创造价值,这就是我富有的原因。”[2018/6/14]
Diffusion模型有两个特点:一方面,给图像增加高斯噪声,通过破坏训练数据来学习,然后找出如何逆转这种噪声过程以恢复原始图像。经过训练,该模型可以从随机输入中合成新的数据。另一方面,StableDiffusion把模型的计算空间从像素空间经过数学变换,降维到一个可能性空间的低维空间里,这一转化大幅降低了计算量和计算时间,使得模型训练效率大大提高。这算法模式的创新直接推动了AIGC技术的突破性进展。
漏洞!
通过以上算法简介大家也可以明白,AIGC本质上就是机器学习,既然是这样,那就无法避免使用大量的数据集执行训练,在这之中确实存在损害图片版权者的利益。
虽然我们都知道这种情况的存在,但是仍然很难解决。
对于艺术家来说,虽然认为这些平台侵害了自己的权益,但是现在仍没有完善的法律规定此类侵权行为,甚至在某些法律条文中,这种行为是合法的。
一方面,AIGC难以被称为“作者”。著作权法一般规定,作者只能是自然人、法人或非法人组织,很显然AIGC不是被法律所认可的权利主体,因此不能成为著作权的主体。但AIGC应用对生成的图片版权问题持有不同观点,图片属于平台、完全开源还是生成者,目前尚未形成统一意见。
另一方面,AIGC产生的“作品”尚存争议。传统意义上的作品是指文学、艺术和科学领域内具有独创性并能以某种有形形式复制的智力成果。AIGC的作品具有较强的随机性和算法主导性,能够准确证明AIGC作品侵权的可能性较低。同时,AIGC是否具有独创性目前难以一概而论,个案差异较大。
即使现在把自己的作品从数据集中删除也无法阻止自己风格作品的生成,首先,AI模型已经过训练,对应风格已经掌握。而且,由于OpenAI的CLIP模型,用户仍然可以调用特定的艺术风格。
对于AI项目方来说,让数据集每张图片都得到授权是不现实的,如果此类法案通过,那么AI行业的发展将受到很大的阻碍,或许是灭顶之灾。所以我们需要一个折中的方案。
方案
首先我们来分析一下AIGC行程的创作闭环:
在创意构思方面,AIGC构建了新的创意完善通路,传统的创作过程中消化、理解以及重复性工作将有望交由AIGC来完成,最终创意过程将变为“创意-AI-创作”的模式。
在创意实现方面,创作者和AIGC的关系类似于摄影师和照相机。摄影师构建拍摄思路并进行规划,对相机进行参数配置,但是不用了解相机的工作机制,一键生成高质量的内容。同样的,创作者构思并进行规划,对AI模型进行参数配置,不需要了解模型的原理,直接点击输出内容即可。创意和实现呈现出分离状态,实现过程变为一种可重复劳动,可以由AIGC来完成,并逐步将成本推向趋近于0。
所以这里有两个大主体:创作者和AIGC。创意重要,创作同样也重要,AI做出的图片是创作者的“创意版权”,是AIGC或者说采用艺术家风格的“底层创意/创作版权”,两者都应该对生成内容享有权益,现在的情况就是少了艺术家的那份收益。
其实艺术家并不是不让AI学习他们的画作,只是也想在其中得到相应的收益,所以只要这份设计得到艺术家的承认,AIGC的漏洞就得以修复。
创作者的成果是AIGC学习的对象,但创作者的创意才是关键,创意本身比AIGC生成的绘画更有价值,因此如何将创作者的“创意”进行量化,甚至定价,将有助于打造AIGC的商业模式。这其中“注意力机制”将成为AIGC潜在的量化载体。例如有机构专家提出,可以通过计算输入文本中关键词影响的绘画面积和强度,我们就可以量化各个关键词的贡献度。之后根据一次生成费用与艺术家贡献比例,就可以得到创作者生成的价值。最后在与平台按比例分成,就是创作者理论上因贡献创意产生的收益。
例如某AIGC平台一周内生成数十万张作品,涉及这位创作者关键词的作品有30000张,平均每张贡献度为0.3,每张AIGC绘画成本为0.5元,平台分成30%,那么这位创作者本周在该平台的收益为:300000.30.5*=3150元的收益,未来参与建立AI数据集将有望成为艺术家的新增收益。
但是以上设计也有缺陷,因为AI并不完美,并不是每张图片都有价值,所以这里优化方案可以是生成时不向艺术家付款,而有满意的内容想要下载时,才需要支付相应的费用。这也与传统的艺术创作领域流程相似,甲方下单,乙方提供满意的作品时,甲方支付所有款项。
为了让流程更加合规,更完美的做法是首先向全球艺术家公开风格库,每个艺术家都可以选择是否将自己的作品内容加入训练集图库中,如果加入则可以在其他用户创作对应风格时获得相应收益,这也是在另一方面为艺术家寻求新的收益途径。在市场上“侵权”行为如此多的背景下,此“正版授权”图库定会受到艺术家群体的支持,这种模式才更类似于正向循环,也是更良性的模式。
Web3?
Web3一直在强调“创作者经济”,这与AIGC想要解决的问题不谋而合,利用区块链技术,完全可以打造一个围绕AIGC的生态网络。
创作者通过AICG的赋能,加上Web3模式下的经济模型,可以将自己的创意和影响力进行指数级的放大。也让更多的人能实现从消费到参与、从用户到所有者的转变。同时艺术家可以得到他赢得的收益份额,达到一个双赢局面。
其实Web3+AI并不是一件新鲜事,生成式艺术NFT领军者ArtBlocks就是一个成功的应用案例。
ArtBlocks是一个生成随机艺术品的平台。它是由ErickSnowfro在2020年推出,是一个专注于可编程、生成性内容的平台,其生成的内容在以太坊区块链上是不可改变的。那么「随机艺术品」是如何随机的呢?这个随机过程是受一串数字控制的,这串数字存储在以太坊链上的一个非同质化代币上。之后这个代币所存储的数字串控制你所购买艺术品的一系列属性,最终生成属于你的独一无二的艺术品。
如果你是一个买家,比较看好某个艺术家的风格,然后支付后开始铸造,算法生成随机的同风格的艺术品就会被发送到你的账户中,以代币的形式存在,最终的作品可能是静态图像、3D模型或交互式的艺术品。每个输出都是不同的,并且在平台上创建的内容类型具有无限种可能性,但每个项目可铸造的艺术品的数量是一定的,也就是说一旦铸造满了,这个项目就不会有新的作品生成了。
对于创作者:他们需要预先在ArtBlocks上调整和部署好自己的生成艺术脚本,并确保它的输出结果与输入的哈希值有关。这个脚本会通过ArtBlocks存储在以太坊链上。
对于收藏者:当收藏者铸造某一系列的作品,他们实质上获得了一个随机的哈希值,然后脚本执行,一副对应这个哈希值的生成艺术作品当场被创作出来。
这种模式让收藏者也参与了生成艺术的创作。
这副作品的内容,实际上是由原艺术家的风格、生成算法和你的铸造时机三者决定。工具、创作者和买家联合完成了这样的作品,这种新的NFT创作模式让这幅艺术品拥有了更多的纪念价值,留下了当下最新技术的印记。
和购买主流的NFT头像项目不同,在ArtBlocks上购买NFT更像是在直接支持一位艺术家——这些艺术家往往是实名的,有大量的历史作品,并且ArtBlocks会对他们进行作品相关的深度采访。ArtBlocks上初次出售的NFT,艺术家可以获得90%的收入,剩下的10%分给ArtBlocks。
所以大家可以发现,ArtBlocks简直是给AIGC开辟了一条“康庄大道”,当然这条路并不完能粘贴复制,但是在细节方面对其修改完全可以成为AIGC+Web3的商业闭环!而且现在也已经有项目在做类似的事情。
正是因为有那么多先行者探路,我们有理由相信AIGC将会走的越来越远,现在的缺陷也将慢慢修补完善。
作者|?ChenglinPua编审?|于百程?排版?|王纪珑琰元宇宙就好像一片还没有被开发的“美洲”,吸引了许多企业来淘金。当中最积极的莫过于Meta了.
1900/1/1 0:00:00头条▌加密货币交易所Huobi将退市HUSD稳定币金色财经报道,HuobiGlobal将于10月28日退市与美元挂钩的稳定币HUSD,并将用户的资产转换为Tether.
1900/1/1 0:00:00撰文:SectioDivina编译:aididiaojp.eth,ForesightNews「这个项目现在已经有1亿美元市值了,所以就不可能再涨100倍了?」为了预测加密市场的历史演变.
1900/1/1 0:00:00币安和FTX必有一战。在2021年币安退出FTX股权之时,加密行业人士都由此预测。现在,币安和FTX开始在正面战场展开对决。金色财经带你看看币安和FTX近日战场情况.
1900/1/1 0:00:00原文作者:ChuanLin导言当你又一次听说某Web3域名被卖出天价的时候,当你又一次看到身边一位Web3朋友改用域名作为其用户名的时候,当你开始在注册栏中物色自己感兴趣的域名的时候.
1900/1/1 0:00:0011月15日,币安首席执行官赵长鹏分享了健康的中心化交易所应履行的六大承诺,这是在FTX破产影响下,加密交易所重建信任的关键.
1900/1/1 0:00:00